Je cherche un moyen de scraper en masse des profils linkedin correspondants à un jobTitle depuis une liste d’entreprise.
Exemple : J’ai une bdd avec des colonnes « companyName » « companyID » « companyURL » qui sont déjà alimentées. Une colonne avec « Poste » qui est alimentée par « CEO ». Je souhaite automatiser le scraping des profils linkedin des CEO dans chacune des entreprises présentes dans ma colonne.
Quelques connait il une méthode ? J’aimerai éviter de passer par un outil payant.
Jusqu’ici j’avais un workflow make qui jouait une requete pour trouver le CEO de sur google directement, mais les résultats sont trop peu fiables dans le cas où l’entreprise est mal référencé. J’aimerai taper directement sur linkedin.
Remplace « back-market » par le « Linkedin companyID » et tu auras une liste complète d’url prêtes à scraper (je te le fais très simple mais au moins tu vois la logique du process)
Tu uploades ta liste de comptes dans Sales Navigator. Pour pouvoir faire ça, il te faut Sales Nav Advanced, qui coûte 20€ de plus que Sales Nav Core. Pour que ce soit efficace (= éviter les erreurs), il est fortement conseillé d’avoir dans ton fichier les URLs des Linkedin company pages. Cela aide Linkedin à ne pas se tromper entre des entreprises homonymes. Pour récupérer les Linkedin company pages, tu peux utiliser Phantombuster.
Tu fais une recherche dans Sales Nav en la restreignant à ta liste de comptes uploadés et en spécifiant le rôle recherché (« CEO »).
Tu scrapes le résultat avec un extracteur Sales Nav, comme Icypeas (disclaimer: je suis le fondateur). Icypeas est moins cher mais tu as aussi d’autres scrapers : Evaboot, Scrupp, Vayne, etc.
Sympa comme outil. Effectivement ça répond à mon besoin, et j’aurai pas besoin de payer un forfait trop élevé alors que j’utilise très peu de feature.
Par curiosité, Icypeas récupère les données par l’API de linkedin ? Comment ça fonctionne pour ne pas se faire bloquer par Linkedin ? Merci
Le Sales Nav Extractor d’Icypeas scrape les données en rejouant la session de l’utilisateur sur une machine virtuelle. On fait hyper attention à reproduire la session à l’identique, y compris le user-agent et la totalité de la fingerprint, pour que Linkedin ne voit aucune différence. Surtout, ce qui est capital pour préserver les comptes, c’est d’écouter attentivement les messages d’erreur envoyés par Linkedin. Dès que Linkedin envoie des 429 ou d’autres types de messages d’erreur, on suspend le scraping pour 24 heures. Si tu écoutes les signaux faibles de Linkedin, Linkedin ne bloque pas les comptes.
Un aspect pour lequel je n’ai jamais trouvé d’information, c’est quelles sont les opérations de scrapping qui sont détectées et comptées dans le quota de Linkedin.
Il semble que suivant la profondeur de l’opération, linkedin ne décompte pas.
Ex : tu visites un compte (entreprise) tu collecte les info de 1er niveau ; web, tel, ca… et les nom et url de 10 décideurs est-ce que ça compte 1 ou 10 ?
Merci
A ma connaissance, personne n’a cette info. Les « quotas » autorisés par Linkedin changent en fonction de plein de paramètres : âge du compte, niveau d’activité organique, premium ou pas, etc. Sur Sales Nav, il est clairement établi qu’un compte un peu âgé (plus de 6 mois) et très organique (avec du dwell time humain) peut scraper 10K leads par jour sans problème. C’est pour ça qu’on a mis ce quota sur Icypeas (pour les plans Hypergrowth).
Je n’ai pas utilisé PB pour cela. Et oui, l’URL SN change à chaque fois que vous ajoutez / modifiez un paramètre. Faites le test, vous verrez. C’est en cela qu’il faut reconstruire l’URL dynamiquement à chaque fois, le plus embêtant étant le Linkedin Company ID à trouver.
Bonjour,
Dans notre cas nous avons une liste de comptes sirénisés avec adresses a 80% qui est notre cible
Nous cherchons les Dirigeants et Office manager pour les plus petites-100 salariés et sinon les DAF, DSI- ITManager et Acheteurs
La recherche des url linkedin dans Phantombuster est-elle limitée en nombre /jour ?
De ce que je comprends, ensuite je lance la recherche des « contacts ayant les fonctions recherchées »
Là encore je suppose qu’il faut faire progressivement pour ne pas dépasser leq qotas ?
Ce qui n’est pas un problème car nous vous voulons ensuite alimenter le pipe avec 50 envois/jours qualifiés ce sera largement suffisant
Dans ce cas il faut surtout pouvoir automatiser l’alimentation en décideurs
Des idées sur comment faire ?
Merci