Scraping WTTJ

thomasbourhis · Septembre 9, 2024, 11:05

Bonjour à tous,

J’ai fais un script python très basique pour récupérer les domaines d’entreprises qui recrutent sur un certain type de poste. J’utilise le fameux BS4 pour scrapper, et tout fonctionne normalement cependant … Les résultats ne correspondent pas à l’url d’entrée.

J’ai l’impression que wttj a mis en place un système de redirection, j’utilise pourtant user_agent et plusieurs residential proxies pour optimiser mon scrapper.

Est-ce que quelqu’un a déjà vécu cette situation ?

Merci par avance pour votre aide !

mathieubp · Septembre 9, 2024, 1:28

Salut,

La clé pour scrapper WTTJ, c’est de regarder leur JSON.

Pour y arriver :

Tu récupères ton cookie de session
Tu regarde les requêtes faites à Algolia
la tu devrais récupérer la liste des jobs
Dans le detail du job tu as un un object qui s’appelle « company » et qui contient un paramère « slug », il faut que tu récupères le slog du job, ton id de query et la reference
Tu peux utiliser ces infos pour construire cette url :
https://api.welcometothejungle.com/api/v1/organizations/#{job_detail[« company_slug »]}/jobs/#{job_detail[« job_slug »]}?q=#{job_detail[« query_id »]}&o=#{job_detail[« reference »]}
Et la enfin tu aura le domaine de l’entreprise

C’est plus simple que ça en à l’air à l’écrit

Sully1 · Septembre 9, 2024, 2:04

Salut,

C’est effectivement la meilleure solution pour scrapper WTTJ en exploitant leur JSON. Cependant, il faut faire attention aux limites journalières imposées par la plateforme. Si tu envoies trop de requêtes, tu risques de te faire bloquer, voire de voir ton compte sauter. Je te conseille de bien surveiller le volume des requêtes pour éviter tout problème.

Bon scrap !

alexandre-chirie · Septembre 11, 2024, 4:03

Hello,

Je confirme ce que dit @mathieubp, il faut utiliser les appels faits à Algolia

Autrement, si tu veux pas t’embêter avec du code, on récupère sur Mantiks toutes les offres de différents job boards, notamment de Welcome to the Jungle ^^

Tu peux ensuite récupérer la data company / job (et contact des décideurs si besoin) via un webhook par exemple

thomasbourhis · Septembre 13, 2024, 7:22

Hello,
Merci pour vos retour !

Je me suis embété avec du code finalement avec Sélénium j’ai pu récupérer les data dont j’avais besoin

DEW-Automatisation · Septembre 18, 2024, 12:34

Il y a aussi la méthode via fichier HAR : https://www.youtube.com/watch?v=0U05f-wCt3o

Arnaud2017 · Septembre 19, 2024, 2:42

Si vous en avez besoin, Octoparse propose des templates comme ça.