Contourner le Puzzle Captcha DataDome Leboncoin

Bonjour, je voudrais savoir si il y a un moyen de bypass le catcha datadome leboncoin.
Je suis en train de créer un programme en python avec sélénium pour scraper les annonces lbc mais
mon problème est le captcha que je suis obligé de remplir manuellement, y’a t’il un moyen, par exemple une extension à ajouter au webdriver ou autre ?
Je précise que je me suis mis à python depuis peu dans le cadre d’un projet, donc je me débrouille vite fait mais je ne suis pas un pro.

Merci pour votre aide d’avance.

Salut, je ne te donnerai pas la solution (et je doute que quelqu’un le fasse) mais oui, c’est possible en cherchant bien de résoudre ce captcha depuis chromedriver !

1 « J'aime »

Bonjour TiagONTOP,

Je ne comprendrai toujours pas que les gens ne partagent pas. De toute façon il faut de la concurrence sur le marché ;).

Aujourd’hui une des solutions, je dis bien une des solutions et pas LA solution, c’est de passer par une solution comme puppeteer qui est capable d’exécuter un chrome en headful, avec celui-ci tu pourras installer un plugin comme Anticaptcha ou 2Captcha.

Sinon, il y a aussi cette façon de faire dans ta stack et qui évite d’installer le plugin et de communiquer directement avec l’API de 2Captcha.
https://opensourcelibs.com/lib/google-recaptcha-solver-seleniumautomation

Comme le dit si bien Paul780, il y a plein de solution sur le web ;).

Pour information, le principe de 2Captcha & Anticaptcha, c’est de faire résoudre par des humains les captchas et de retourner le résultat à ton application.

Si tu utilises 2Captcha et si tu le souhaites, je te partagerai mon lien d’affiliation, j’aurai un peu de retour sur tes achats ^^.
Si besoin, je peux te partager un dockerfile qui est capable d’exécuter le puppeteer en headful, sinon, je peux te proposer un service évidemment payant ;), qui va s’occuper pour toi de scrapper et te retourner le DOM.

Je te souhaite bon courage et bienvenue dans le monde du scraping ;).

Je préfère lui dire que c’est possible pour qu’il découvre la solution par lui même plutôt que lui proposer :

  • une solution payante
  • ton lien d’affiliation
  • et pour finir, ton service payant

C’est bien loin de l’esprit du gh, alors que ce captcha se bypass effectivement gratuitement avec des ressources qu’il suffit de chercher sur google.

1 « J'aime »

Bonsoir Paul,

Comme tu peux le voir, je ne force pas la main sur le lien d’affiliation, je ne l’ai même pas indiqué ou glissé gentiment avec une redirection. Je n’attends pas après sa souscription, même si ca fait un affilié en plus (Que veux tu j’ai diversifié mon activité :slight_smile: ).

Avant même de parler de solution payante, je lui propose mon dockerfile que j’utilise pour une certaine partie de mes activités et comme tu as pu voir je n’ai même pas indiqué le lien de mon site web.

Et pour la question de mentalité, je pense qu’il est préférable de donner des premières pistes qui peut le faire avancer que de lancer une phrase bateau on « trouve sur Google ».

Car la personne a bien cherché sur Google en amont étant donné il est arrivé sur le présent site, et au vu de sa date d’inscription, je pense qu’il s’est enregistré spécialement pour poser cette question.

De mon point de vue, et si on veut parler d’esprit, il faut arrêter de faire croire aux gens que le scraping est difficilement accessible et qu’on partage rien sur les forums par peur que datadome et les autres fassent évoluer leur système contre nous ou par peur d’avoir des concurrents. Et je m’excuse platement d’avoir proposé des service et une possibilité d’affiliation.

Cordialement,

4 « J'aime »

Bonjour à tous,

J’utilise Zennoposter et Cap Monster 2 pour casser les captcha. Or, celui du Bon coin apparait un petit plus complexes. Avez vous des pistes avec ce type d’outil ou alors faut il creuser du coté du DOM ?
D’avance merci.

Hey,

Je viens de m’inscrire pour tenter d’élucider cette quête de contournement à datadome; d’ailleurs cette petite solution a bien évoluée depuis mon dernier bot malheureusement…

Super message @Hal, particulièrement le dernier paragraphe qui fait plaisir à lire ! On a donc encore de vrais communautés d’entraide entre passionnés <3 ?!

Apparement en obtenant un cookie valide après une résolution on pourrait le by-passer, mais je pense qu’ils ont update depuis ce dernier tricks.

Pour ma part je suis sur pupeteer (mais nous sommes sur le même combat qu’avec python et selenium) et j’arrive à résoudre le captcha puzzle plutôt simple, par contre juste après la résolution validée il me bloque.

C’est donc mon navigateur émulé qui merde… Pourtant je passe bien sur tous ces tests :

https://bot.sannysoft.com/
https://bot.incolumitas.com/

En changeant d’ip dès que je me fais bannir et en aillant une navigation naturelle, j’arrive à passer sous les radars, mais il m’intercepte parfois…

Vous n’avez vraiment pas envie de s’entraider ?

1 « J'aime »

Hello,

Je me casse les dents sur le nouveau système de datadome. A priori c’est sorti depuis environ 3 semaines.

Avec un cookie valide ça fonctionne bien. Mais faut-il encore trouver un cookie valide.
Je sais comment faire sur un navigateur « normal », mais le problème c’est de l’automatiser

Avec puppeteer, j’arrive à résoudre le captcha, mais le problème c’est que le cookie n’est pas valide. Quand je fais une requête avec, elle ne fonctionne pas. D’ailleurs ce qui est bizarre c’est que même si la pièce n’est pas posée au bon endroit, il indique « Puzzle résolu »

Si je fais la même chose sur un navigateur « normal », ça fonctionne. Donc c’est vraiment le cookie généré via le navigateur puppeteer qui n’est pas valide.

A dispo pour en parler en mp et pourquoi pas en visio pour échanger et s’entraider :slight_smile:

Salut,

Oui le petit path datadome est sympa ! Malheureusement pour nous, j’ai lu une bonne partie du blog du CTO de datadome qui date de 2019 et il est rodé sur les anti-bots ^^.

Pour la résolution de captch tu as un super article ici : How to bypass “slider CAPTCHA” with JS and Puppeteer | by Filip Vitas | Medium

Mais il test aussi le comportement de ton navigateur comme la solution : CreepJS, qui detecte toutes les versions de puppeteer stealth en headless. Par contre sans headless on passe, mais si on veut faire beaucoup d’appels pour pas cher, le top est des instances cloud en headless.

Quand tout est ok, il te donne un cookie qui sera valide pour ton ip de résolution seulement (donc attention à bien utiliser la même ip que lors de la résolution), il y a aussi moyen qu’ils checkent aujourd’hui ou à l’avenir le « fingerprint » de ton navigateur de résolution et d’utilisation. Donc utiliser le même navigateur pour la résolution et le scraping.

En utilisant un navigateur type puppeteer, le plus simple étant de catch tous les calls api (api : /finder/search contenant un json de ads) tout en navigant naturellement sur le site pour éviter de se faire spotted et tomber sur des sécurités de type fausses annonces. On y a toutes les infos des annonces sans les afficher.

Hey, j’essaye actuellement de contourner datadome sur LBC également.
Je le fais en python, cependant je n’ai pas réussi totalement pour l’instant.
J’utilise le service anti-captcha.com et leur lib python « anticaptchaofficial », mais le captcha (geo-test) est render avec du js, donc je n’arrive pas à solve avec anti-captcha vu qu’il envoie des requetes sans js.

Si quelqu’un à une idée/alternative, j’en serais reconnaissant. Merci!

1 « J'aime »

Je comprends pas bien ton soucis. Tu peux pas intercepter les requètes pour récupérer ce qui va bien ?

Hello @Liberateur je suis également avec puppeteer et je bloque un peu sur les secus datadome qui me bloquent (même pas possibilité de mettre un captcha)

J’utilise un proxy résidentiel et c’est dans un docker.

J’ai vu que tu parlais d’interceptée certaines requêtes, penses tu que ça soit la solution à mon problème?

Que je sois en headless ou headful ou même avec un système qui génère une souris pour se balader dans le site ça bloque :sweat_smile:

Merci de ton aide

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.