Posez vos questions à un expert du scraping

etal · Février 16, 2024, 9:20

Je sais tout scraper, même les trucs réputés impossibles.

Demandez-moi et je vous apporterai une réponse adaptée à votre contexte.

Je me réserve le droit de ne vous donner qu’une partie de la réponse pour ne pas diluer gratuitement tout mon savoir.

boristchangang · Février 16, 2024, 9:21

Meilleur post 2024

charlie · Février 16, 2024, 10:13

Hello,
Merci pour l’initiative,

Aurais-tu des billes sur comment scraper directement les nouvelles publications d’une page LinkedIn automatiquement sans se faire détecter ?
Je suis aussi intéressée pour Twitter à partir de mots clefs sur des volumes assez importants si tu veux partager quelques infos (pour créer des data set pour usage perso).

etal · Février 16, 2024, 10:59

Scraper directement la page en HTML sans se connecter, utiliser https://www.google.com en Referer et un User-Agent crédible.
Ex. le HTML de Germinal | LinkedIn me permet d’obtenir les derniers posts de la boîte.

Farme du cookie Twitter et utilise directement les endpoints JSON. Ça fait un moment que je n’ai pas détourné l’API publique donc je ne sais pas à quelle fréquence ils pètent si tu fais des appels en boucle. Si tu as besoin d’une solution clé-en-main je peux regarder mais je ne prends aucune commande en dessous de 500€.

charlie · Février 17, 2024, 12:07

Merci pour ton retour c’est super sympa. Jusqu’a présent sur Linkedin, je faisais en manuel car pas le temps de me pencher dessus et j’ai un code en Python qui extrait le texte des publications et des formules Excel qui faisaient le reste. Merci, je vais tâcher de regarder ça.
Pour Twitter, je prends note si jamais mais comme c’est pour mon usage perso face au coût d’extraction des tweets

En tout cas gros merci et hâte de suivre ce topic,
Bonne soirée !

Sonnie · Février 17, 2024, 11:25

Merci de partager ton XP !

As-tu des conseils pour scraper des pages de Google Search?

Morph · Février 17, 2024, 11:30

Il e semble que ce sujet n’avait pas eu de solution, si tu veux t’y faire les dents :

Comme le dit @DJousto , soit le site est fait intentionnellement pour éviter le scrap, soit il est très mal fait

etal · Février 17, 2024, 1:28

Il faut déléguer à un prestataire SaaS ukrainien ou indien, les meilleurs font 100 000 requêtes Google pour 100 €.

eletric_apple · Février 17, 2024, 2:22

Bonjour, j’essaye de scraper des données sur vinted (noms de produits, prix, url, s’ils offrent une vérification). J’ai essayé avec beautifulSoup mais je me fais bloquer par le site qui me demande de faire un catcha. Est-ce que tu pourrais m’aider s’il te plaît ?

etal · Février 17, 2024, 2:24

Je viens de le résoudre sur le sujet.

Edit: non, le site est juste horrible avec une version très vieille d’ASP.NET. Par contre Qualibat fait vraiment de l’antiscraping avec Google ReCaptcha V3 certainement : Qualibat

etal · Février 17, 2024, 2:27

https://www.vinted.fr/api/v2/catalog/items?page=1&per_page=96&search_text=&catalog_ids=&order=newest_first&catalog_from=1&disable_search_saving=true&size_ids=&brand_ids=&status_ids=&color_ids=&material_ids=

eletric_apple · Février 17, 2024, 3:07

Merci beaucoup ! C’est hyper util. Est-ce qu’il y a une sorte de documentation pour les différents elements du lien / un moyen de voir les brand_ids, color_ids, … disponibles ?

D’autre part, je n’arrive toujours pas à prendre ces donnés pour les utiliser dans un script python.
J’ai essayé le code ci-dessous, mais ça me donne, entre autre :

</div>
      <h1>Almost here!</h1>
      <div class="site-content">
        <p>To continue, please complete this verification</p>
        ::CAPTCHA_BOX::
</div>

Voici le script: :

import json
import requests

r = requests.get("https://www.vinted.fr/api/v2/catalog/items?page=1&per_page=96&search_text=corteiz%20jeans&catalog_ids=&order=newest_first&catalog_from=1&disable_search_saving=true&size_ids=&brand_ids=3036449&status_ids=&color_ids=&material_ids=")print(r.text)

Merci d’avance !

etal · Février 17, 2024, 3:34

https://www.vinted.fr/api/v2/catalog/initializers?search_text=&supported_display_types=list,list_search,grid,hybrid_price
Aller dans dtos > dynamicFilters

Je t’invite à te renseigner sur les headers et les cookie.

eletric_apple · Février 17, 2024, 4:29

Merci ! Il n’y a cependant pas tous les codes de marques mais ce n’est pas le plus important et je vais essayer de les trouver moi-même sur Vinted.

Je viens d’essayer avec selenium de mettre des headers et j’ai essayé de sauvegarder les cookies mais la réponse que j’ai maintenant est la suivante et est la même à chaque fois:
{« code »:100,« message »:« Jeton d’authentification invalide »,« message_code »:« invalid_authentication_token »}

Le json que le lien donne est parfait et c’est tout ce dont j’ai besoin, mais je n’arrive pas du tout à prendre le texte qui s’y trouve avec une request ou un bot.

EDIT: Je n’arrive à accéder au site que sur Safari avec mon Mac. Ça ne marche pas avec chrome ou sur mon téléphone. Ça donne la même erreur de jeton invalide. Cette erreur est aussi apparue une fois sur safari mais plus depuis.

etal · Février 17, 2024, 4:45

Là il faut que tu apprennes par toi-même

eletric_apple · Février 17, 2024, 4:46

Ok, merci.

Edit: tu ne peux plus m’aider ? Je ne sais pas du tout comment faire.

etal · Février 18, 2024, 5:30

Ça ne sert à rien que je t’explique maintenant, tu as des choses à apprendre avant de pouvoir être à l’aise avec ce type de scraping. Utilise Postman pour simuler tes requêtes et essaie jusqu’à ce que ça fonctionne

PLA · Février 20, 2024, 4:40

tu saurais scrap l’apec?

cyruss · Février 20, 2024, 6:50

Tu sais comment scrapper les profils de chômeurs présents sur le site de Pôle Emploi ? Et récupérer les emails et tel ?
On a pas trouvé de méthode ou on se fasse pas ban à ce stade.

etal · Février 20, 2024, 10:15

Oui mais d’une manière illégale, je ne préfère donc pas le dire.