Scraping WTTJ

Bonjour à tous,

J’ai fais un script python très basique pour récupérer les domaines d’entreprises qui recrutent sur un certain type de poste. J’utilise le fameux BS4 pour scrapper, et tout fonctionne normalement cependant … Les résultats ne correspondent pas à l’url d’entrée.

J’ai l’impression que wttj a mis en place un système de redirection, j’utilise pourtant user_agent et plusieurs residential proxies pour optimiser mon scrapper.

Est-ce que quelqu’un a déjà vécu cette situation ?

Merci par avance pour votre aide !

Salut,

La clé pour scrapper WTTJ, c’est de regarder leur JSON.

Pour y arriver :

C’est plus simple que ça en à l’air à l’écrit

3 « J'aime »

Salut,

C’est effectivement la meilleure solution pour scrapper WTTJ en exploitant leur JSON. Cependant, il faut faire attention aux limites journalières imposées par la plateforme. Si tu envoies trop de requêtes, tu risques de te faire bloquer, voire de voir ton compte sauter. Je te conseille de bien surveiller le volume des requêtes pour éviter tout problème.

Bon scrap !

1 « J'aime »

Hello,

Je confirme ce que dit @mathieubp, il faut utiliser les appels faits à Algolia :slight_smile:

Autrement, si tu veux pas t’embêter avec du code, on récupère sur Mantiks toutes les offres de différents job boards, notamment de Welcome to the Jungle ^^

Tu peux ensuite récupérer la data company / job (et contact des décideurs si besoin) via un webhook par exemple

Hello,
Merci pour vos retour !

Je me suis embété avec du code finalement avec Sélénium j’ai pu récupérer les data dont j’avais besoin :slight_smile:

1 « J'aime »

Il y a aussi la méthode via fichier HAR : https://www.youtube.com/watch?v=0U05f-wCt3o

Si vous en avez besoin, Octoparse propose des templates comme ça.