Tu lui parles chinois, je pense pas qu’elle ait envie de faire des requêtes POST. Si c’était le cas elle ne demanderait pas.
@Alexia2 Soit tu analyses les requêtes et tu demandes à ChatGPT, soit tu l’as demain dans ton inbox. Je ne prends pas de commande en dessous de 500€ par contre, donc je te conseille de me demander d’autres trucs à scraper pour avoir un bon rapport qualité-prix.
J’ai mis le lien avec les résultats dans mon post. (ou ici) @Alexia2 : avec le json fourni et ton dev tu auras toutes les données que tu veux je pense.
Si tu veux le faire in-house (sans utiliser l’API officielle ou des outils comme scrap.io), tu peux développer un code en python.
Les étapes :
Agréger toutes les URLs maps pour lesquelles tu as envie d’extraire les sites internet (à la main ou en utilisant la search box de Gmaps)
Accéder à toutes ces URL en utilisant la librairie requests, et un proxy pour ne pas te faire bloquer
Parser la page html pour en extraire les sites web.
Cette dernière étape est la plus complexe pour Google Maps. Les informations du business ne sont pas parsables via le HTML. J’utilise Regex pour le faire.
Datadome ou Cloudfare détectent si tu n’as pas un comportement humain. Pour rester simple, 3 aspects différencie l’humain du robot :
La signature de la requête : quand tu navigues normalement sur un site, plusieurs infos sont envoyées au site en question. La machine que tu utilises, le site d’ou tu viens, le navigateur sur lequel tu es etc. C’est ce qu’on appelle des ‹ headers ›.
La quantité de requêtes à un domaine
La vitesse de requêtes à un domaine
Pour ne pas te faire détecter, tu dois adresser ces 3 points là. La quantité/vitesse des requêtes sont basées sur une adresse IP, donc si tu passes via des proxies en modifiant tes headers tu peux en théorie bastonner de requêtes un server.
C’est par contre en gros à peu près sur le même principe que des pirates essayent tous les jours de DDOS des sites internet : en surchargeant le traffic sur un site de manière automatisée et non détectée, ce dernier peut crasher.
Le scraping de donnée doit toujours être fait d’une manière à ne pas altérer les performances du site en question, en prenant son temps par exemple.