scraping 118 712

Kev_Mas · Avril 6, 2022, 10:22

Bonjour la communauté,

je viens vers vous parce que je bloque sur un projet de scraping.

je cherche à scraper des infos de professionnel sur le site 118712, j’ai écrit un script sur python (avec la librairie scrapy) qui fonctionne très bien.

Cependant, je rencontre un problème de captcha au bout de quelques minutes (photo de la captcha ci-dessous)

animiertes-gif-von-online-umwandeln-de

je pense avoir plusieurs solutions afin de contourner ce problème :

-1ère solution - utiliser le logiciel Tor et Torrequests :
je n’arrive pas à le faire fonctionner sur mon PC Windows et je ne sais pas si les IP de TOR (Torrequests) ne sont pas déjà connu (et donc inutilisable) par la plupart des sites, à l’image des proxies gratuits que l’on trouve sur Free Proxy List

2ème solution - utiliser une solution pour résoudre la captcha (script ou service) :
je ne sais pas comment s’appelle ce type de captcha, je ne sais pas si c’est faisable avec la librairie scrapy (sélénium semble pouvoir faire le taf) et je n’ai aucune idée du prix si je dois passer par un service de type Death By Captcha
3ème solution - utiliser des proxies avec IP rotatif :
la solution me semble couteuse, comme celle de Bright Data (300$/mois + 15$/GB) et je ne sais pas comment intégrer les proxies et la rotation d’IP dans mon spider

Est-ce qu’une âme éclairée et généreuse pourrait m’aiguiller afin de trouver la ou les meilleurs solutions et comment les mettre en places ?

PS: mon projet de scraping comporte plusieurs centaines de milliers de pages pro et j’ai déjà :

intégrée des user-agents rotatif
désactivé le robots.txt
limiter le nombre de requête
augmenter le delais par requeste à 10 secondes
activé l’autothrottle

Merci d’avance pour vos réponses

yarek · Avril 6, 2022, 10:43

Vous avez parfaitement resumé les solutions.

essayez 2captcha : leur serviced est au top
utilisez nordvpn : cela vous coûtera 4 euros par mois et les ips sont propres.
Attention : c’est du vpn et non des proxies. Mais nordvpn possede des commandes cli pour switcher en ligne de commande

Kev_Mas · Avril 6, 2022, 11:02

merci pour ta réponse @yarek, j’ai quelques questions.

Concernant 2captcha :

il prend en charge la captcha mise en place par 118712 ?
sait tu comment s’appelle ce type de captcha qu’utilise 118712 ?

Concernant NordVPN :

il peut créer une rotation d’IP a chaque requête ?
si oui, est-ce qu’il y a un supplément à payer selon le nombre d’IP utiliser ou selon le poids des datas scraper ? (à l’image de bright data)
qu’appelles tu les « commandes cli » ?
comment l’intégrer à mon spider ?

merci

yarek · Avril 6, 2022, 9:27

Je ne sais pas quel est le captcha utilisé: on dirait un captcha microsoft : il suffit de regarder le code source. Mais cela peut être une solution maison
pour NordVPN, cette solution c’est bien entendu pour de linux (mais je ne n’arrive pas à envisager de scrapper un nombre important de données sur autre chose que du Linux !)
avec l’instruction

nordvpn connect [server]

tu changes d’adresse IP : c’est très rapide. Tu peux le faire à chaque requête
La liste des serveurs est ici : https://nordvpn.com/api/server

Comment l’intégrer à ton spider ?
euhh… faut écrire du code : un simple appel à nordvpn connect suffira.

DJousto · Avril 7, 2022, 6:14

sur scrapy il y a des librairies, cherches « rotating proxies scrapy », ensuite il faut utiliser une liste des proxies, les gratuits ne sont pas fiables et seront surement détectés par le site, pas le choix faudra acheter une liste mais comme c’est un besoin ponctuel çà devrait pas te couter trop cher, regardes chez didsoft Buy Proxy List | Check and Update Every 30 Minutes par exemple

kamkara · Avril 7, 2022, 10:51

j’ai fais une expérience dur Facebook avec les commentaires. j’enregistre la pafe entiere avec un ctr+s et hors connexion le script recupere les data.

benp6 · Avril 9, 2022, 10:58

Le logiciel GSA Proxy Scrapr est génial pour récupérer et testers des proxies. Pleins de paramètres possibles. Une fois le logiciel acheté tu as des proxies en illimité, et propres (selon les paramètres que tu auras mit).

ClementAubry · Avril 11, 2022, 1:05

Hello,

Jette un coup d’oeil à scraperapi, c’est une ligne de plus pour tes requêtes HTTP et ça gère la rotation d’IP et les captcha. C’est un peu long pour chaque requête mais pas très cher

Kev_Mas · Avril 11, 2022, 4:03

justement je suis entrain d’essayer le free plan de SCRAPERAPI mais ça ne fonctionne pas !
je scrape volontairement jusqu’a me faire ban temporairement, ensuite je rajoute le parametre

meta={« proxy »: « http://scraperapi.keep_headers=true:[email protected]:8001 »}

et

yield scrapy.Request(url=url, meta=meta, callback=self.parse, dont_filter=True)

mais je tombe a chaque fois sur une captcha comme si je n’utilisais aucun proxy

NicolasF · Avril 13, 2022, 4:27

Bonjour @Kev_Mas ,

Tu veux quoi comme infos et quels secteurs ?

Kev_Mas · Avril 13, 2022, 5:19

Je recherche à scraper l’es nom, tel et adresse et concernant l’activité c’est plutôt une liste d’URL en ma possession tte provenant du site 118712.fr

system · Avril 13, 2023, 5:20

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.