Posez vos questions à un expert du scraping

etal · Février 23, 2024, 12:48

Tu lui parles chinois, je pense pas qu’elle ait envie de faire des requêtes POST. Si c’était le cas elle ne demanderait pas.

@Alexia2 Soit tu analyses les requêtes et tu demandes à ChatGPT, soit tu l’as demain dans ton inbox. Je ne prends pas de commande en dessous de 500€ par contre, donc je te conseille de me demander d’autres trucs à scraper pour avoir un bon rapport qualité-prix.

Alexia2 · Février 23, 2024, 12:54

merci pour ta réponse, j’ai un dev à la maison je vais lui demander . Merci

Morph · Février 23, 2024, 1:06

J’ai mis le lien avec les résultats dans mon post. (ou ici)
@Alexia2 : avec le json fourni et ton dev tu auras toutes les données que tu veux je pense.

Alexia2 · Février 23, 2024, 1:12

Merci encore pour ton aide

Motorcycle24 · Février 23, 2024, 1:59

Quelle stratégie / grande étapes tu suivraient afin d’extraire par exemple, les sites internets depuis google map ? via une API ? En python j’imagine

Scalon · Février 23, 2024, 2:09

Si tu veux le faire in-house (sans utiliser l’API officielle ou des outils comme scrap.io), tu peux développer un code en python.
Les étapes :

Agréger toutes les URLs maps pour lesquelles tu as envie d’extraire les sites internet (à la main ou en utilisant la search box de Gmaps)
Accéder à toutes ces URL en utilisant la librairie requests, et un proxy pour ne pas te faire bloquer
Parser la page html pour en extraire les sites web.

Cette dernière étape est la plus complexe pour Google Maps. Les informations du business ne sont pas parsables via le HTML. J’utilise Regex pour le faire.

josselin · Février 23, 2024, 2:26

As-tu l’endpoint json « caché » des produits d’amazon? Merci d’avance haha

ben_dufl · Février 23, 2024, 2:29

C’est quoi tes conseils pour bypass Datadome et Cloudflare ?

etal · Février 23, 2024, 2:32

Ça c’est du consulting payant.

etal · Février 23, 2024, 2:42

J’en ai même plusieurs, qu’est-ce que tu cherches spécifiquement ?

Scalon · Février 23, 2024, 4:36

Datadome ou Cloudfare détectent si tu n’as pas un comportement humain. Pour rester simple, 3 aspects différencie l’humain du robot :

La signature de la requête : quand tu navigues normalement sur un site, plusieurs infos sont envoyées au site en question. La machine que tu utilises, le site d’ou tu viens, le navigateur sur lequel tu es etc. C’est ce qu’on appelle des ‹ headers ›.
La quantité de requêtes à un domaine
La vitesse de requêtes à un domaine

Pour ne pas te faire détecter, tu dois adresser ces 3 points là. La quantité/vitesse des requêtes sont basées sur une adresse IP, donc si tu passes via des proxies en modifiant tes headers tu peux en théorie bastonner de requêtes un server.

C’est par contre en gros à peu près sur le même principe que des pirates essayent tous les jours de DDOS des sites internet : en surchargeant le traffic sur un site de manière automatisée et non détectée, ce dernier peut crasher.
Le scraping de donnée doit toujours être fait d’une manière à ne pas altérer les performances du site en question, en prenant son temps par exemple.

ben_dufl · Février 23, 2024, 5:19

Merci @Scalon pour la réponse !

Kevin-Zimmermann · Février 24, 2024, 3:09

Regarde ces deux ressources @ben_dufl ,
tu verras à quel point ils peuvent en savoir

https://bot.sannysoft.com/
https://bot.incolumitas.com/

etal · Février 24, 2024, 4:05

Mettez la page d’Antoine Vastel aussi

Mendyc26 · Février 26, 2024, 2:08

Tu scapes Lusha ?J’ai pas encore essayer dataminer dessus mais si ça coince je serai intéressé par tes services

etal · Février 26, 2024, 2:20

Oui je peux

JG_word · Février 27, 2024, 1:29

Bonjour,

Moi je voudrais scrapper cette page avec toutes les informations des produits : Camion occasion à vendre | Europe-Camions.com , quel outils me conseillerez-vous svp ?

Merci d’avance

etal · Février 27, 2024, 1:32

Ça se scrape super bien : https://www.europe-camions.com/camion-occasion/1-32/annonces-camion.html?p=1&mode=infiniteScroll

Itérer de p=1 à p=768 puis demander à ChatGPT de structurer les résultats HTML avec BeautifulSoup en Python.

JG_word · Février 27, 2024, 6:41

Super, merci

Motorcycle24 · Février 28, 2024, 11:55

Une idée de comment scraper ce site : https://vinaty.com/