je viens vers vous parce que je bloque sur un projet de scraping.
je cherche à scraper des infos de professionnel sur le site 118712, j’ai écrit un script sur python (avec la librairie scrapy) qui fonctionne très bien.
Cependant, je rencontre un problème de captcha au bout de quelques minutes (photo de la captcha ci-dessous)
je pense avoir plusieurs solutions afin de contourner ce problème :
-1ère solution - utiliser le logiciel Tor et Torrequests : je n’arrive pas à le faire fonctionner sur mon PC Windows et je ne sais pas si les IP de TOR (Torrequests) ne sont pas déjà connu (et donc inutilisable) par la plupart des sites, à l’image des proxies gratuits que l’on trouve sur Free Proxy List
2ème solution - utiliser une solution pour résoudre la captcha (script ou service) : je ne sais pas comment s’appelle ce type de captcha, je ne sais pas si c’est faisable avec la librairie scrapy (sélénium semble pouvoir faire le taf) et je n’ai aucune idée du prix si je dois passer par un service de type Death By Captcha
3ème solution - utiliser des proxies avec IP rotatif : la solution me semble couteuse, comme celle de Bright Data (300$/mois + 15$/GB) et je ne sais pas comment intégrer les proxies et la rotation d’IP dans mon spider
Est-ce qu’une âme éclairée et généreuse pourrait m’aiguiller afin de trouver la ou les meilleurs solutions et comment les mettre en places ?
PS: mon projet de scraping comporte plusieurs centaines de milliers de pages pro et j’ai déjà :
utilisez nordvpn : cela vous coûtera 4 euros par mois et les ips sont propres.
Attention : c’est du vpn et non des proxies. Mais nordvpn possede des commandes cli pour switcher en ligne de commande
Je ne sais pas quel est le captcha utilisé: on dirait un captcha microsoft : il suffit de regarder le code source. Mais cela peut être une solution maison
pour NordVPN, cette solution c’est bien entendu pour de linux (mais je ne n’arrive pas à envisager de scrapper un nombre important de données sur autre chose que du Linux !)
avec l’instruction
nordvpn connect [server]
tu changes d’adresse IP : c’est très rapide. Tu peux le faire à chaque requête
La liste des serveurs est ici : https://nordvpn.com/api/server
Comment l’intégrer à ton spider ?
euhh… faut écrire du code : un simple appel à nordvpn connect suffira.
sur scrapy il y a des librairies, cherches « rotating proxies scrapy », ensuite il faut utiliser une liste des proxies, les gratuits ne sont pas fiables et seront surement détectés par le site, pas le choix faudra acheter une liste mais comme c’est un besoin ponctuel çà devrait pas te couter trop cher, regardes chez didsoft Buy Proxy List | Check and Update Every 30 Minutes par exemple
Le logiciel GSA Proxy Scrapr est génial pour récupérer et testers des proxies. Pleins de paramètres possibles. Une fois le logiciel acheté tu as des proxies en illimité, et propres (selon les paramètres que tu auras mit).
Jette un coup d’oeil à scraperapi, c’est une ligne de plus pour tes requêtes HTTP et ça gère la rotation d’IP et les captcha. C’est un peu long pour chaque requête mais pas très cher
justement je suis entrain d’essayer le free plan de SCRAPERAPI mais ça ne fonctionne pas !
je scrape volontairement jusqu’a me faire ban temporairement, ensuite je rajoute le parametre