Depuis quelques temps j’utilise différents outils de scraping de type import.io ou encore ParserHub pour récolter : nom société + nom + prénom sur des annuaires.
Mais je reste souvent limiter par le coût du service vs data récolté.
Quel type d’outil me conseillez vous pour aller plus loin sans passer par ce type de service payant ?
Sachant que pour certain comme societe.com, on peut être confronter à des buttons de type « load more ».
Je souhaite aussi m’initier au scraping sur linkedin.
Même chose récolter suivant un filtrage : nom, prénom + société.
Quelles solutions pouvez vous me recommander ?
Pour info, je ne suis pas dev, mais autodidacte avec quelques notions sur Python.
Si tu ne veux pas payer, il te faut développer - Yoda
Par contre, il y a juste milieu entre import.io et le dev. Je pense à l’importxml de spreadsheet, seetools, zennoposter, scrapebox par exemple. CF : Toolbox
https://scrapy.org/ : Scrap plus complexe, plus gros ou pour le scrap automatique régulier.
http://casperjs.org/ (+ http://phantomjs.org/) : Pour les sites dynamiques (avec plein de javascript et d’Ajax). Simule le comportement d’un véritable navigateur. Beaucoup plus lent mais parfois indispensable. Permet aussi de faire des copies d’écran. (pdf, png,…)
Pour le premier, il suffit de connaître un peu les CSS pour configurer un scrap.
Pour les autres, il faut pouvoir se débrouiller en python ou en javascript.
Une fois que tu es à l’aise avec cette boite à outils, tu peux scraper à peu près ce que tu veux.
Mais du coup sur Linkedin, nous sommes limité par le type de compte que l’on a non ?
ils bloquent également au niveau du nombre de page vue. Quelqu’un a déjà trouvé une solution ?