J’ai fais un script python très basique pour récupérer les domaines d’entreprises qui recrutent sur un certain type de poste. J’utilise le fameux BS4 pour scrapper, et tout fonctionne normalement cependant … Les résultats ne correspondent pas à l’url d’entrée.
J’ai l’impression que wttj a mis en place un système de redirection, j’utilise pourtant user_agent et plusieurs residential proxies pour optimiser mon scrapper.
Est-ce que quelqu’un a déjà vécu cette situation ?
La clé pour scrapper WTTJ, c’est de regarder leur JSON.
Pour y arriver :
Tu récupères ton cookie de session
Tu regarde les requêtes faites à Algolia
la tu devrais récupérer la liste des jobs
Dans le detail du job tu as un un object qui s’appelle « company » et qui contient un paramère « slug », il faut que tu récupères le slog du job, ton id de query et la reference
Tu peux utiliser ces infos pour construire cette url :
C’est effectivement la meilleure solution pour scrapper WTTJ en exploitant leur JSON. Cependant, il faut faire attention aux limites journalières imposées par la plateforme. Si tu envoies trop de requêtes, tu risques de te faire bloquer, voire de voir ton compte sauter. Je te conseille de bien surveiller le volume des requêtes pour éviter tout problème.
Je confirme ce que dit @mathieubp, il faut utiliser les appels faits à Algolia
Autrement, si tu veux pas t’embêter avec du code, on récupère sur Mantiks toutes les offres de différents job boards, notamment de Welcome to the Jungle ^^
Tu peux ensuite récupérer la data company / job (et contact des décideurs si besoin) via un webhook par exemple