Scraping anonyme

Bonjour,

Je débute dans le scraping. Le sujet est très intéressant et les outils nombreux. J’ai besoin de scraper des noms d’utilisateurs soit sur viadex ou linkedix. Au début je penchais pour l’utilisation de l’extension chrome web scraper. Puis je me suis ravisé en développant mon propre petit script quitte à ce que cela soit moins performant (et çà l’est bien entendu mais au moins je sais davantage ce que je fais).
En gros je récupère page par page le code source d’une liste d’utilisateur. Je concatène toutes ces données et je les passe dans une moulinette php qui m’injecte tout çà en base.

Bon rien de très original ni compliqué me direz-vous.
Comme je le disais je suis débutant et je me pose la question du risque à faire çà.

Mais voilà… connaissez la politique de ces sites sur le sujet ? Je veux dire par là que ma navigation effrénée de page en page doit leur remonter des petits warnings « tiens celui là il a comportement chelou dis donc ». Cela vaut aussi pour les outils qui pour le coup envoient des requêtes régulières et j’imagine facilement traçables.

Je ne vois que ces solutions pour le moment pour scraper sans trop se poser de questions:

  • utiliser un compte bidon (pour ne pas blacklister le sien si on y tient)
  • utiliser un outil permettant de masquer l’IP (je suis ouvert aux recommandations sur le sujet)
  • désactiver javascript si l’outil de scraping le permet afin de faire remonter moins d’infos au site
    (moi je fais du clic droit à gogo par ex…)

Quels sont vos autres recommandations pour ne pas se faire repérer et subir une fermeture de compte (voire une plainte ?)

Merci de m’avoir lu

Si tu scrapes des informations publiques un proxy suffit. Si tu passes par ton compte crée en un faux. Renseigne toi aussi sur les limites des API ça te donnera une idée de la politique et de la tolérance du site en question. Ajoute aussi une timer dans ton script avec une temporisation « humaine » aléatoire.

1 « J'aime »

Merci logamanu je vais explorer la piste des API en effet.
Concernant le proxy je serais curieux de connaître vos préférés.

Je me suis renseigné. Le piste des APIs ne donne rien. J’ai aussi regardé côté proxy et j’ai eu le conseil très pro d’un conseiller chat sur http://trustedproxies.com/ . Avant de vendre ils vous écoutent bien. Résultat des courses ils ne me vendra rien car selon le fait d’avoir a être connecté pour accéder aux informations que l’on cherche à scraper rend l’utilisation d’un système de protection proxy inefficace voire « risqué » car cela voudra dire x perte de session / reconnexion.

Donc en gros la seule solution que je vois maintenant c’est de le faire à la main et avec parcimonie… ce qui n’a plus grand chose à voir avec du scraping… (enfin si çà reste du scraping mais pas scalable).

Vous auriez tendance à confirmer mon impasse ?

Changer d’IP, ne changera rien si tu utilises le même compte. Par contre, faire une rotation de compte et d’IPs, la oui :wink:

A la lecture de la réponse de Camille je réalise que j’ai besoin d’une formation sur le sujet. Sinon je risque de faire bêtise sur bêtise et de n’avancer à rien.
Je recherche désormais quelqu’un pour me former sur le sujet.

Bien entendu je financerai la personne qui me formera. L’idée étant de m’accompagner sur les étapes de la mise en place d’un scrape « propre » sur « viade[x] ».

Pour rappel je cherche à:

  • être en mesure de récupérer des [noms + prénoms] en filtrant par entreprise (en poste actuellement)
  • maximiser ma discrétion
  • maximiser mon efficacité

Pour cela j’ai besoin de bien:

  • comprendre les pièges, les « no-go zones », les limites…
  • connaître et savoir utiliser les outils qui me permettront de réaliser ce scrap

Idéalement, à l’issue de cette formation je saurais lancer une « campagne » visant à scraper 50 000 couples [nom + prenom] sur une période d’une semaine environ.

Le mode opératoire de cette formation pourrait être très simple. Nous convenons d’un coût horaire. On se cale des créneaux horaires (le soir entre 20h30 et 22h30 par ex). Je vous rémunère au temps passé en ligne avec vous (chat ou autre).

Comme beaucoup d’entre vous j’ai passé beaucoup de temps à apprendre des choses sur le net par moi-même. Cette fois je ne me sens pas du tout capable d’y aller sereinement. Ce serait un peu comme courir sans chaussure…je risque d’avoir bien mal aux pieds.

Si cela intéresse quelqu’un contactez-moi en privé je serai heureux d’être vôtre élève !

Alors ? Qui sera mon maître ? :dog:

[HS]Courrir sans chaussures est devenu une tendance, c’est le barefoot running ! ^^ [/HS]

Bon courage pour le scrapping, sinon tu as plein d’outils qui peuvent t’aider en fonction des besoins http://growthhacking.fr/c/extraction-scraping

Oui j’ai bien vu que le site était une mine d’or sur le sujet.
Mais quand il faut il faut :wink:
Merci

hello, j’ai fait un test de construction de liste (Nom + Prénom + Tel + Mail) à partir de données linkedin sur 5000 contacts en moins d’un mois. J’utilise HMA, Mozenda, E-grabber, Full Contact / Rapportive et e-mail format.