Posez vos questions à un expert du scraping

Tu lui parles chinois, je pense pas qu’elle ait envie de faire des requêtes POST. Si c’était le cas elle ne demanderait pas.

@Alexia2 Soit tu analyses les requêtes et tu demandes à ChatGPT, soit tu l’as demain dans ton inbox. Je ne prends pas de commande en dessous de 500€ par contre, donc je te conseille de me demander d’autres trucs à scraper pour avoir un bon rapport qualité-prix.

merci pour ta réponse, j’ai un dev à la maison je vais lui demander . Merci :pray:

1 « J'aime »

J’ai mis le lien avec les résultats dans mon post. (ou ici)
@Alexia2 : avec le json fourni et ton dev tu auras toutes les données que tu veux je pense.

2 « J'aime »

Merci encore pour ton aide

:pray:

Quelle stratégie / grande étapes tu suivraient afin d’extraire par exemple, les sites internets depuis google map ? via une API ? En python j’imagine

Si tu veux le faire in-house (sans utiliser l’API officielle ou des outils comme scrap.io), tu peux développer un code en python.
Les étapes :

  • Agréger toutes les URLs maps pour lesquelles tu as envie d’extraire les sites internet (à la main ou en utilisant la search box de Gmaps)
  • Accéder à toutes ces URL en utilisant la librairie requests, et un proxy pour ne pas te faire bloquer
  • Parser la page html pour en extraire les sites web.

Cette dernière étape est la plus complexe pour Google Maps. Les informations du business ne sont pas parsables via le HTML. J’utilise Regex pour le faire.

2 « J'aime »

As-tu l’endpoint json « caché » des produits d’amazon? Merci d’avance haha

C’est quoi tes conseils pour bypass Datadome et Cloudflare ?

Ça c’est du consulting payant.

1 « J'aime »

J’en ai même plusieurs, qu’est-ce que tu cherches spécifiquement ?

Datadome ou Cloudfare détectent si tu n’as pas un comportement humain. Pour rester simple, 3 aspects différencie l’humain du robot :

  • La signature de la requête : quand tu navigues normalement sur un site, plusieurs infos sont envoyées au site en question. La machine que tu utilises, le site d’ou tu viens, le navigateur sur lequel tu es etc. C’est ce qu’on appelle des ‹ headers ›.
  • La quantité de requêtes à un domaine
  • La vitesse de requêtes à un domaine

Pour ne pas te faire détecter, tu dois adresser ces 3 points là. La quantité/vitesse des requêtes sont basées sur une adresse IP, donc si tu passes via des proxies en modifiant tes headers tu peux en théorie bastonner de requêtes un server.

C’est par contre en gros à peu près sur le même principe que des pirates essayent tous les jours de DDOS des sites internet : en surchargeant le traffic sur un site de manière automatisée et non détectée, ce dernier peut crasher.
Le scraping de donnée doit toujours être fait d’une manière à ne pas altérer les performances du site en question, en prenant son temps par exemple.

1 « J'aime »

Merci @Scalon pour la réponse !

Regarde ces deux ressources @ben_dufl :wink:,
tu verras à quel point ils peuvent en savoir

https://bot.sannysoft.com/
https://bot.incolumitas.com/

2 « J'aime »

Mettez la page d’Antoine Vastel aussi

2 « J'aime »

Tu scapes Lusha ?J’ai pas encore essayer dataminer dessus mais si ça coince je serai intéressé par tes services :grinning:

Oui je peux

Bonjour,

Moi je voudrais scrapper cette page avec toutes les informations des produits : Camion occasion à vendre | Europe-Camions.com , quel outils me conseillerez-vous svp ?

Merci d’avance

Ça se scrape super bien : https://www.europe-camions.com/camion-occasion/1-32/annonces-camion.html?p=1&mode=infiniteScroll

Itérer de p=1 à p=768 puis demander à ChatGPT de structurer les résultats HTML avec BeautifulSoup en Python.

1 « J'aime »

Super, merci

Une idée de comment scraper ce site : https://vinaty.com/