Je fais développer un programme de scraping des pages LinkedIn + la page d’entreprise liée à la page du profil - Programme développé pour Windows 10
Fonctions principales du programme :
Recherche manuel de profils ou par une automatisation complète de scraping
Fonction du scheduler et d’automatisation
Loging automatique d’un compte Linkedin / multi-comptes
Automatiser du démarrage du scraping tous les xx heures et ce pendant une durée de xx heures
Recherche de xxx profiles par jour
Récupération de xxx profiles par jour + la fiche entreprise liée au profil
Découpage des profils récupérés par segments de 1000 liens (limites de scraping par jour)
Automatisation des recherches de profils sur LinkedIn par un fichier CSV d’une liste de mots
La gestion multi-comptes
Sauvegarde des profils / entreprises déjà scrapés en réseau pour ne pas les re-scraper à nouveau par une autre session du programme utilisé sur un autre PC
Exportation au format Json ou Excel
Projet réalisé a 90 %
A votre avis , y’a il un marché pour un programme de scraping comme celui-ci ?
Et à quel prix public ?
Je me permets de te répondre avec ma "casquette’ d’entrepreneur. Tu dis faire actuellement développer un programme spécifique au scraping de L-din, mais de manière plus générale si tu développe un projet, un logiciel ou autre, n’est il pas plus logique de réaliser ton étude de marché avant?
Je comprends bien que tu aies pu identifier ce besoin pour toi personnellement, mais avant de se lancer dans le développement d’un tel programme, il faut d’abord identifier le marché existant, la concurrence, ta cible, le pricing, etc, tant d’étapes qui sont des pré-requis obligatoires avant d’investir du temps et de l’énergie dans le dev.
Là tu sembles avoir réalisé ce projet à 90%, et seulement te poser ces questions après coup. Je peux dores et déjà affirmer qu’il existe bon nombre de solutions aujourd’hui se positionnant comme concurrents indirects de ce que tu proposes, tels que Hunter, Datananas, et j’en passe, car ça fleurit un peu de partout ces temps ci. Je dis « indirects » car le fait de rechercher des profils + fiche entreprise liée c’est généralement pour récupérer le NDD du site de la boite, et reconstruire l’email corporate de la personne à partir de son nom + prénom + ndd corporate.
Du coup, pour le pricing, je t’invite à regarder ce que propose la concurrence +/- indirecte, et directe
Je dis ça comme ça mais Linkedin ne vient pas justement de sortir une V2 qui va complètement changer ? et qui devra donc surement te demander de recoder l’outil ?
Sauf qu’un tel outil nécessite toujours d’avoir connaissance de / l’expertise nécessaire en ce qui concerne les limites imposées par L-in, qui sont plus complexes que juste 1 000 vues de profils par jour (et je ne parle pas du nombre de requêtes max par jour / mois).
Sans oublier la techno utilisée qui peut changer énormément de chose quant au comportement de l’outil et des suspicions / détections de la part du site ciblé …
Le fait que l’on trouve beaucoup de solutions semi-manuelles , semi-automatiques, n’est pas le fruit du hasard
Je me doute que c’est plus complexe c’est aussi le but de ce type de forum de partager les expériences utilisateurs.
Sachant que justement Link-din vend ses forfaits ‘’premium Business Plus’’ ou ‘’Recruiter Lite’’ avec une vue illimitée de profils, je pense qu’il y a -des solutions efficaces pour passer sous les radars.
Il manque peut-être ici une centralisation de toutes ces infos sur les limitations réelles constatées et d’expériences utilisateurs ?
J’ai deux dev, un dev en PHP pour la partie web et un dev en C# pour la partie Windows
Un pc par compte, Un compte link-din par IP fixe / 2000 recherches et 1000 profils récupérés par jours et par compte pour le moment RAS sur les blocages, autre que les limitations journalières si par erreurs je dépasse
Mon blocage, c’est un compte par PC . Je pense que c’est pas possible de lancer plusieurs comptes sur un même pc ?
Justement, même avec ces premiums, le nombre de profils vus n’est pas limité, on reste aux alentours des 1 000 par jour (testé et verifié de mon côté avec divers Premiums).
J’ai déja posté à plusieurs reprises les limites que j’avais constatées, et je suis surpris de voir que tu peux monter à 2 000 recherches / jour, sachant que n’importe quel compte L-din ne peut dépasser les 500 recherches / jour avec un Premium… Limite testée et validée avec divers premiums et comptes, si on dépasse les 500 recherches / jour, le compte est restreint en terme de recherche (limitées au réseau de 1er degré).
Tu peux lancer plusieurs comptes par PC, sans abuser du nombre de requêtes par IP j’imagine…
Moi aussi je suis surpris par tes limitations, j’arrive à récupérer au minimum 2000 liens / jour / par profile avant d’avoir le message d’une ‹ ‹ recherche abusive › › et de me bloquer pour 24 H, ce qui ne m’empêche pas de passer à l’étape suivante et scraper par la suite les profils.
La limitation est effectivement de 1000 profils, mais sur tous les niveaux, 1 2 et 3 d’où ce qu’ils doivent appeler ‹ ‹ illimité › ›
Pour le moment je préfère un compte par PC pour ne pas tout mélanger et y perdre mon latin
Mon objectif final :
Avec des comptes premium, une recherche très large comme ‘’ Marketing’’ avec 2 comptes par PC ce qui donnera 2000 profils jours et je pense passer sous les radars. Le programme s’occupe de splitter automatiquement les recherches par segment de 1000 profils.
Avec des comptes standard dont j’active le mois gratuit pour lancer les 3000 invitations d’un coup et que je fais vivre pour avoir des abonnés suffisants …
Faire des recherches uniquement sur le niveau 1 et 2. Cette phase est à l’étude d’optimisation.
Par la suite, si tout fonctionne bien, intégrer un module pour générer et tester les mails automatiquement avec une logique éprouvée du nom_prenom composé, le bon nom de domaine du mail, les erreurs d’une réponse toujours Ok du serveur ….
Mais bon OK … , il faut de bons serveurs de test et là est un problème à régler sur un programme Windows et dépasser 50 % de bons résultats en mails.
Cela dit, avec plus de 9 millions de profils dont 4 millions d’actifs, il y a de quoi faire
Nous avons déjà développé une solution de scraping d’une multitude de sites comme société, vérif … avec notre solution d’enrichissement et d’autocomplémentation + une solution de routage de mails.
Pour avoir testé plusieurs solutions parlées ici, elles ne règlent pas le problème des domaines et des noms_prenom_prenom composées
Nous avons donc développés notre propre solution avec la gestion de corrections ‹ ‹ multi listes › ›, une liste pour les domaines à remplacer comme ‹ ‹ ibm.com en fr.ibm.com › ›, une liste pour les corrections de domaines mals écrits comme ‹ ‹ wanadou en wanadoo › ›, une liste repoussoir au chargement de nos bases, pour les domaines à supprimer au chargement d’une base comme voilà.fr et les domaines à remplacer comme tiscali.fr en aliceadsl.fr, les mails à corriger ou à remplacer par un autre …
Pour chaque mail testé, nous envoyons aussi un véritable mail pour terminer nos tests et le qualifier en mail dit ‹ ‹ vrai › ›.
Après, c’est les routages de nos clients sur notre base qui fera le reste.
Je suis un adepte du tout automatique
Je me lance maintenant dans la récupération des fiches complètes Linkedin