Posez vos questions à un expert du scraping

Je sais tout scraper, même les trucs réputés impossibles.

Demandez-moi et je vous apporterai une réponse adaptée à votre contexte.

Je me réserve le droit de ne vous donner qu’une partie de la réponse pour ne pas diluer gratuitement tout mon savoir.

9 « J'aime »

Meilleur post 2024 :+1:t5:

11 « J'aime »

Hello,
Merci pour l’initiative,

Aurais-tu des billes sur comment scraper directement les nouvelles publications d’une page LinkedIn automatiquement sans se faire détecter ?
Je suis aussi intéressée pour Twitter à partir de mots clefs sur des volumes assez importants si tu veux partager quelques infos (pour créer des data set pour usage perso).

1 « J'aime »

Scraper directement la page en HTML sans se connecter, utiliser https://www.google.com en Referer et un User-Agent crédible.
Ex. le HTML de Germinal | LinkedIn me permet d’obtenir les derniers posts de la boîte.

Farme du cookie Twitter et utilise directement les endpoints JSON. Ça fait un moment que je n’ai pas détourné l’API publique donc je ne sais pas à quelle fréquence ils pètent si tu fais des appels en boucle. Si tu as besoin d’une solution clé-en-main je peux regarder mais je ne prends aucune commande en dessous de 500€.

2 « J'aime »

Merci pour ton retour c’est super sympa. Jusqu’a présent sur Linkedin, je faisais en manuel car pas le temps de me pencher dessus et j’ai un code en Python qui extrait le texte des publications et des formules Excel qui faisaient le reste. Merci, je vais tâcher de regarder ça.
Pour Twitter, je prends note si jamais mais comme c’est pour mon usage perso face au coût d’extraction des tweets :sweat:

En tout cas gros merci et hâte de suivre ce topic,
Bonne soirée !

2 « J'aime »

Merci de partager ton XP !

As-tu des conseils pour scraper des pages de Google Search?

1 « J'aime »

Il e semble que ce sujet n’avait pas eu de solution, si tu veux t’y faire les dents :

Comme le dit @DJousto , soit le site est fait intentionnellement pour éviter le scrap, soit il est très mal fait :stuck_out_tongue:

Il faut déléguer à un prestataire SaaS ukrainien ou indien, les meilleurs font 100 000 requêtes Google pour 100 €.

1 « J'aime »

Bonjour, j’essaye de scraper des données sur vinted (noms de produits, prix, url, s’ils offrent une vérification). J’ai essayé avec beautifulSoup mais je me fais bloquer par le site qui me demande de faire un catcha. Est-ce que tu pourrais m’aider s’il te plaît ?

1 « J'aime »

Je viens de le résoudre sur le sujet.

Edit: non, le site est juste horrible avec une version très vieille d’ASP.NET. Par contre Qualibat fait vraiment de l’antiscraping avec Google ReCaptcha V3 certainement : Qualibat

2 « J'aime »

https://www.vinted.fr/api/v2/catalog/items?page=1&per_page=96&search_text=&catalog_ids=&order=newest_first&catalog_from=1&disable_search_saving=true&size_ids=&brand_ids=&status_ids=&color_ids=&material_ids=

1 « J'aime »

Merci beaucoup ! C’est hyper util. Est-ce qu’il y a une sorte de documentation pour les différents elements du lien / un moyen de voir les brand_ids, color_ids, … disponibles ?

D’autre part, je n’arrive toujours pas à prendre ces donnés pour les utiliser dans un script python.
J’ai essayé le code ci-dessous, mais ça me donne, entre autre :

</div>
      <h1>Almost here!</h1>
      <div class="site-content">
        <p>To continue, please complete this verification</p>
        ::CAPTCHA_BOX::
</div>

Voici le script: :

import json
import requests

r = requests.get("https://www.vinted.fr/api/v2/catalog/items?page=1&per_page=96&search_text=corteiz%20jeans&catalog_ids=&order=newest_first&catalog_from=1&disable_search_saving=true&size_ids=&brand_ids=3036449&status_ids=&color_ids=&material_ids=")print(r.text)

Merci d’avance !

1 « J'aime »

https://www.vinted.fr/api/v2/catalog/initializers?search_text=&supported_display_types=list,list_search,grid,hybrid_price
Aller dans dtos > dynamicFilters

Je t’invite à te renseigner sur les headers et les cookie.

1 « J'aime »

Merci ! Il n’y a cependant pas tous les codes de marques mais ce n’est pas le plus important et je vais essayer de les trouver moi-même sur Vinted.

Je viens d’essayer avec selenium de mettre des headers et j’ai essayé de sauvegarder les cookies mais la réponse que j’ai maintenant est la suivante et est la même à chaque fois:
{« code »:100,« message »:« Jeton d’authentification invalide »,« message_code »:« invalid_authentication_token »}

Le json que le lien donne est parfait et c’est tout ce dont j’ai besoin, mais je n’arrive pas du tout à prendre le texte qui s’y trouve avec une request ou un bot.

EDIT: Je n’arrive à accéder au site que sur Safari avec mon Mac. Ça ne marche pas avec chrome ou sur mon téléphone. Ça donne la même erreur de jeton invalide. Cette erreur est aussi apparue une fois sur safari mais plus depuis.

1 « J'aime »

Là il faut que tu apprennes par toi-même

1 « J'aime »

Ok, merci.

Edit: tu ne peux plus m’aider ? Je ne sais pas du tout comment faire.

1 « J'aime »

Ça ne sert à rien que je t’explique maintenant, tu as des choses à apprendre avant de pouvoir être à l’aise avec ce type de scraping. Utilise Postman pour simuler tes requêtes et essaie jusqu’à ce que ça fonctionne

1 « J'aime »

tu saurais scrap l’apec?

Tu sais comment scrapper les profils de chômeurs présents sur le site de Pôle Emploi ? Et récupérer les emails et tel ?
On a pas trouvé de méthode ou on se fasse pas ban à ce stade.

Oui mais d’une manière illégale, je ne préfère donc pas le dire.