Scraping profil linkedin à partir du nom de l'entreprise

Clementd · Septembre 13, 2024, 2:22

Hello

Je cherche un moyen de scraper en masse des profils linkedin correspondants à un jobTitle depuis une liste d’entreprise.

Exemple : J’ai une bdd avec des colonnes « companyName » « companyID » « companyURL » qui sont déjà alimentées. Une colonne avec « Poste » qui est alimentée par « CEO ». Je souhaite automatiser le scraping des profils linkedin des CEO dans chacune des entreprises présentes dans ma colonne.

Quelques connait il une méthode ? J’aimerai éviter de passer par un outil payant.

Jusqu’ici j’avais un workflow make qui jouait une requete pour trouver le CEO de sur google directement, mais les résultats sont trop peu fiables dans le cas où l’entreprise est mal référencé. J’aimerai taper directement sur linkedin.

Merci!!

Mathieu-L · Septembre 13, 2024, 3:30

Tu peux générer des urls à scraper :

https://www.linkedin.com/company/back-market/people/?keywords=CEO

Remplace « back-market » par le « Linkedin companyID » et tu auras une liste complète d’url prêtes à scraper (je te le fais très simple mais au moins tu vois la logique du process)

plandoin · Septembre 13, 2024, 3:58

Je te conseille le workflow suivant :

Tu uploades ta liste de comptes dans Sales Navigator. Pour pouvoir faire ça, il te faut Sales Nav Advanced, qui coûte 20€ de plus que Sales Nav Core. Pour que ce soit efficace (= éviter les erreurs), il est fortement conseillé d’avoir dans ton fichier les URLs des Linkedin company pages. Cela aide Linkedin à ne pas se tromper entre des entreprises homonymes. Pour récupérer les Linkedin company pages, tu peux utiliser Phantombuster.
Tu fais une recherche dans Sales Nav en la restreignant à ta liste de comptes uploadés et en spécifiant le rôle recherché (« CEO »).
Tu scrapes le résultat avec un extracteur Sales Nav, comme Icypeas (disclaimer: je suis le fondateur). Icypeas est moins cher mais tu as aussi d’autres scrapers : Evaboot, Scrupp, Vayne, etc.

Clementd · Septembre 13, 2024, 6:04

Sympa comme outil. Effectivement ça répond à mon besoin, et j’aurai pas besoin de payer un forfait trop élevé alors que j’utilise très peu de feature.
Par curiosité, Icypeas récupère les données par l’API de linkedin ? Comment ça fonctionne pour ne pas se faire bloquer par Linkedin ? Merci

Clementd · Septembre 13, 2024, 6:04

Bonne méthode ! J’arrivais pas à trouver comment construire un url que linkedin accepte avec un companyID
Merci je vais regarder

plandoin · Septembre 14, 2024, 8:12

Le Sales Nav Extractor d’Icypeas scrape les données en rejouant la session de l’utilisateur sur une machine virtuelle. On fait hyper attention à reproduire la session à l’identique, y compris le user-agent et la totalité de la fingerprint, pour que Linkedin ne voit aucune différence. Surtout, ce qui est capital pour préserver les comptes, c’est d’écouter attentivement les messages d’erreur envoyés par Linkedin. Dès que Linkedin envoie des 429 ou d’autres types de messages d’erreur, on suspend le scraping pour 24 heures. Si tu écoutes les signaux faibles de Linkedin, Linkedin ne bloque pas les comptes.

Clementd · Septembre 14, 2024, 3:06

Hyper intéressant. je regarde ça pour mon cas d’usage et reviens vers toi si besoin. Merci!

RenaudLT · Septembre 15, 2024, 4:59

Un aspect pour lequel je n’ai jamais trouvé d’information, c’est quelles sont les opérations de scrapping qui sont détectées et comptées dans le quota de Linkedin.
Il semble que suivant la profondeur de l’opération, linkedin ne décompte pas.
Ex : tu visites un compte (entreprise) tu collecte les info de 1er niveau ; web, tel, ca… et les nom et url de 10 décideurs est-ce que ça compte 1 ou 10 ?
Merci

plandoin · Septembre 15, 2024, 7:45

A ma connaissance, personne n’a cette info. Les « quotas » autorisés par Linkedin changent en fonction de plein de paramètres : âge du compte, niveau d’activité organique, premium ou pas, etc. Sur Sales Nav, il est clairement établi qu’un compte un peu âgé (plus de 6 mois) et très organique (avec du dwell time humain) peut scraper 10K leads par jour sans problème. C’est pour ça qu’on a mis ce quota sur Icypeas (pour les plans Hypergrowth).

Arno92100 · Septembre 20, 2024, 7:20

Sinon possibilité aussi de scraper les company linkedin url page / récupérer le company linkedin ID de ces pages / puis reconstruire l’URL Sales Nav.

donos · Septembre 20, 2024, 10:39

J’ai essayé de créer mes propres outils en utilisant cette solution j’ai galéré à la mort

RenaudLT · Septembre 23, 2024, 10:40

Merci la démarche est Intéressante
Ce n’est pas ce que propose phantom B ?

Sinon le niveau d’infos varie suivant l’URL LinkedIn ?

Arno92100 · Septembre 23, 2024, 1:42

Je n’ai pas utilisé PB pour cela. Et oui, l’URL SN change à chaque fois que vous ajoutez / modifiez un paramètre. Faites le test, vous verrez. C’est en cela qu’il faut reconstruire l’URL dynamiquement à chaque fois, le plus embêtant étant le Linkedin Company ID à trouver.

RenaudLT · Septembre 24, 2024, 4:43

Bonjour,
Dans notre cas nous avons une liste de comptes sirénisés avec adresses a 80% qui est notre cible
Nous cherchons les Dirigeants et Office manager pour les plus petites-100 salariés et sinon les DAF, DSI- ITManager et Acheteurs
La recherche des url linkedin dans Phantombuster est-elle limitée en nombre /jour ?
De ce que je comprends, ensuite je lance la recherche des « contacts ayant les fonctions recherchées »
Là encore je suppose qu’il faut faire progressivement pour ne pas dépasser leq qotas ?
Ce qui n’est pas un problème car nous vous voulons ensuite alimenter le pipe avec 50 envois/jours qualifiés ce sera largement suffisant
Dans ce cas il faut surtout pouvoir automatiser l’alimentation en décideurs
Des idées sur comment faire ?
Merci

RenaudLT · Septembre 24, 2024, 5:36

et tu peux nous dire comment tu reconstruis l’url sales nav depuis linkedin ?

donos · Septembre 24, 2024, 7:46

Tu es obligé d’avoir l’id, tu ne peux pas le reconstruire à la main depuis l’url linkedin

Tu es obligé de récupérer id de la page

RenaudLT · Septembre 24, 2024, 8:14

mais l’id tu ne l’obtient pas depuis la page d’accueil de la société ?
Y’a une complexité que je n’ai pas saisie ?

donos · Septembre 24, 2024, 8:34

Si tu trouves l’id depuis la page LinkedIn, mais pas depuis l’url

RenaudLT · Septembre 24, 2024, 8:47

AH OUI OK
Et donc comment tu extraits l’ID ?

donos · Septembre 24, 2024, 10:16

en aller sur la page tu peux crée un script maison avec chat gpt la valeur dans la page c’est fsd: je crois