Les outils de scraping : Annuaire et Linkedin

Jum · Mai 19, 2017, 9:53

Hello,

Depuis quelques temps j’utilise différents outils de scraping de type import.io ou encore ParserHub pour récolter : nom société + nom + prénom sur des annuaires.
Mais je reste souvent limiter par le coût du service vs data récolté.

Quel type d’outil me conseillez vous pour aller plus loin sans passer par ce type de service payant ?
Sachant que pour certain comme societe.com, on peut être confronter à des buttons de type « load more ».

Je souhaite aussi m’initier au scraping sur linkedin.
Même chose récolter suivant un filtrage : nom, prénom + société.

Quelles solutions pouvez vous me recommander ?

Pour info, je ne suis pas dev, mais autodidacte avec quelques notions sur Python.

Merci !!

Camille · Mai 19, 2017, 10:21

Si tu ne veux pas payer, il te faut développer - Yoda

Par contre, il y a juste milieu entre import.io et le dev. Je pense à l’importxml de spreadsheet, seetools, zennoposter, scrapebox par exemple. CF : Toolbox

VivianSolide · Mai 19, 2017, 12:36

Je viens de prendre une licence chez Apifier, la folie…

Nunien · Mai 21, 2017, 5:54

Pour de l’annuaire (pages blanches ou jaunes) tu as http://www.iqualif.com , la version d’essai suffit si tu es pas trop gourmand

YannDeBulle · Mai 22, 2017, 9:05

Ce que j’utilise le plus souvent par ordre de priorité suivant la complexité du scrap :

http://webscraper.io/ : Scrap simple directement depuis le navigateur.
https://scrapy.org/ : Scrap plus complexe, plus gros ou pour le scrap automatique régulier.
http://casperjs.org/ (+ http://phantomjs.org/) : Pour les sites dynamiques (avec plein de javascript et d’Ajax). Simule le comportement d’un véritable navigateur. Beaucoup plus lent mais parfois indispensable. Permet aussi de faire des copies d’écran. (pdf, png,…)

Pour le premier, il suffit de connaître un peu les CSS pour configurer un scrap.
Pour les autres, il faut pouvoir se débrouiller en python ou en javascript.

Une fois que tu es à l’aise avec cette boite à outils, tu peux scraper à peu près ce que tu veux.

denamo · Juin 28, 2017, 12:01

Mais du coup sur Linkedin, nous sommes limité par le type de compte que l’on a non ?
ils bloquent également au niveau du nombre de page vue. Quelqu’un a déjà trouvé une solution ?

merci !!!

lemagicien · Janvier 9, 2018, 10:17

Bonjour,

Pour scrapper sur société.com, il y a un outil à privilégier?

Merci

K-rAY · Janvier 10, 2018, 8:41

Pour scraper des résultats de recherche ou les membres d’un groupe sur LinkedIn, tu as l’extension Chrome Scrapely.

Phantombuster dispose aussi de pas mal d’API dédiées à LinkedIn dans son store.

Clement_Desmousseaux · Octobre 1, 2018, 8:13

Jutilise https://linkedhelper.com/ sur (un/des) comptes gratuits. Ça fait le job pour faire de l’email qualifié

SimonLobstr · Octobre 16, 2018, 6:09

Hello @lemagicien,

Je te conseille de la faire avec python / request / scrapy.

au plaisir d’en discuter.
Simon