Scrapping Linkedin & Dédoublonnage CRM : Une automatisation est-elle possible ?

Bonjour la communauté Growth Hacker,

Je fais face à un problème qu’ont également nombreuses entreprises autour de moi.

Je scrapp Linkedin avec différents outils pour agrandir la base de données clients B2B de mon entreprise. On utilise un CRM, Pipedrive. L’entreprise dispose déjà plus d’une dizaine de milliers d’entreprises à date.
La base de données clients actuels comporte des infos simples (Nom de la société, Nom et Prénom du contact, adresse email pro, et numéro de téléphone).

Le gros problème auquel nous faisons face, est de dédoublonner et supprimer les nouvelles entreprises fraichement scrapper via LinkedIn qui sont déjà dans notre base CRM.

En effet, le scrapp Linkedin donne les mêmes infos mais également d’autres critères: Nom, Prénom, Nom de la société, Adresse email pro, Taille de l’entreprise, Secteur d’activité, URL etc…

Nous le faisons actuellement à la main, ce qui prend un temps fou, et qui est très chronophage… Effectivement, les critères de la base de données que nous avons, ont été écrit à la main.
Un dédoublonnage classique via Excel ne permet pas de dédoublonner toute la base puisque si un caractère diffère, Excel ne fera pas le match, et ne dédoublonnera pas.

J’ai pensé à faire un match grâce au domaine de l’adresse email.
J’imagine que la grande majorité d’entre vous font face à ce problème.

J’en arrive donc à la question : Comment faites-vous ? Utilisez-vous Excel est une formule pour match même si des caractères sont différents?
Votre CRM vous permet de le faire directement ?
Utilisez-vous des outils pour automatiser et/ou dégrossir le gros du travail ?

Je vous remercie par avance pour vos contributions !

J’imagine que c’est une fonctionnalité qui se fait en quelques lignes, si il s’agit juste de prendre un fichier CSV/Excel en entrée, et d’en ressortir un autre, en se basant sur le critère nom de domaine de l’email.

1 « J'aime »

Un match à partir des domaines d’adresse email est possible.
Mais, j’aurai voulu savoir si une fonction sur Excel permettait également de matché avec des caractères qui peuvent être différents entre les données du CRM, et la base de données d’un fichier.
(Par exemple: « Vente privée » ; ou « Vente-privée », la recherche v ne permettra pas de trouver).
Sur des forums, ils disent de faire attention à : caractères spéciaux, lower case, et les accents, en utilisant du regular expressions ou regex par exemple.

Pour ma part, je considère que la seule donnée vraiment fiable (en France en tout cas) permettant un dédoublonnage, c’est le N° Siret. Généralement, je conseille de ne jamais rentrer un nouveau compte dans le CRM sans N° Siret… Radical, mais vraiment fiable :slight_smile:
Pour trouver automatiquement le Siret à partir du site web, regarde du côté de l’API proposée par societeinfo

2 « J'aime »

Hello Romain,

Merci pour ta réponse.
Il est vrai qu’à partir du Siret d’une entreprise, il est facile de dédoublonner.
Le problème c’est qu’on va devoir le faire à la mano puisque dans notre CRM il n’y a pas les numéros Siret …

tu as mal lu ma réponse, regarde ma dernière phrase :wink:

La problématique du matching de données multi-sources a toujours été complexe, typiquement à cause de ça, chaque site ayant sa propre manière d’écrire le nom de l’établissement.

En terme d’algo et de code, si jamais tu ne trouvais pas ton bonheur dans l’utilisation de l’API de societeinfo, il faut en effet réduire et indexer la string de comparaison (le pivot) en son équivalent « normalisé » , c’est à dire en remplaçant les accents par les caractères normaux, en virant les tirets, et autres caractères spéciaux.

Pardon, c’est vrai que c’était pas clair du tout.
Mais je n’ai pas non plus sur mon CRM les sites internet. :confused:

Je te suggère de regarder du côté de dropcontact ils sont bons et s’interconnecte directement à PipeDrive. :slight_smile:

Je suis abonné et cela fonctionne bien.
Pierre

2 « J'aime »

Pour info cette solution est hors de prix

@steevivo: peux tu étayer ton propos? Est-ce que c’est l’API de societeinfo que tu trouves trop cher?

Je comprends pas l’offre de crédits, plus tu prends de crédits plus c’est cher en choisissant par/an je te raconte pas en mode mensuel . Le business model est bizarre mais je comprends par le fait qu’il n’y a que 15K de visites sur le site/mois environ .

Quand on fait du SAAS la logique veut que les coûts fixe sont presque linéaire et là j’ai l’impression que non et que le client le paye très cher.

Hello @steevivo
Pour le coup tu as mal interprété leur tarif :slight_smile:
Plus tu prends de crédits, plus le coût unitaire du crédit diminue - normal quoi ! (exemple - pour le paiement annuel : 69€ par mois pour 1000 crédits soit 0,069€ le crédit - 139€ par mois pour 3000 crédits soit 0,046€ le crédit, …).

Ta raison :scream: :joy: je suis pas réveillé là. SI il y avait la possibilité de pouvoir acheter one shot en lot et pas que /mois ou années ça serait bien aussi .Je suis pas client dans ce mode j’ai pas de besoins réguliers, c’est bon pour eux mais pas pour moi.

Pour le coup c’est peut-être un peu moins clair sur ce point là mais les abonnements mensuels sont sans engagement. Du coup tu peux acheter 1000 crédits pour 100€ par exemple, puis annuler ton engagement, ce qui équivaut un peu à du one shot :wink:
J’ai utilisé societeinfo à plusieurs reprises pour certains clients, le service est vraiment pas mal !

1 « J'aime »

bonjour à tous.
Pour dédoublonner un fichier csv qui contient des données sur chaque ligne, il faut trouver un index cad une valeur unique pour chaque ligne enregistée, le numero SIRET est la meilleure solution car il permet d’identifier de maniere unique l’entreprise. Le pbm c est que vous n’avez pas acces au numéro siret si j’ai bien compris. La base de donnée des entreprises est gratuite. Je crois qu’on la tve sur le site de l’insee.
Attention cette base est tellement lourde qu’il convient de l’ouvrir via une base de donne comme posgresql.
Avant tout ca il faut nettoyer le fichier csv de tous les accents et autre en faisant par ex une expression réguliere ou bien un petit script python de conversion en code ascii 128 (5 lignes de code en python).
Ensuite envoyer le fichier csv sur posgresql et créer des requetes sql de recherche entre le nom de l’entreprise et le numero siret. Ce travail est chronophage pr le cpu.
Peut être il y a plus simple considerer que l’identifiant unique est le mail.
Une fois que l’identifiant unique a été construit pour chaque ligne, une simple requete sql permet le dedoublonnage, ca prends 5 minutes à faire.
Tout faire directement sur un fichier csv me parait difficile car juste le rapprochement avec le numero siret est impossible car la base de siret est trop lourde csv ne peux pas s’ouvrir.

Merci pour ta réponse.
Mais via Dropcontact cela fait automatiquement le dédoublonnage une fois que tu importes le fichier.
Tu peux pas dédoublonner avant d’importer ton fichier sur Pipedrive, si?

@galabwu si tu utilises PipeDrive tu doit d’abord importer les contacts avant le dédoublonnage.
Sinon DropContact a aussi un version ou tu lui upload ton fichier de contacts et ils te le corrige. :slight_smile:

Pierre

Hello,

Use drop contact ! Sors en excel TOUS tes contacts, mets les dans drop contact et t’auras le SIRET de chacune de tes boites sans doublons ! Drop contact va Delet tes doublons et te mettre toutes les infos. Tu vas en avoir pour 80e pour 8000 lignes, et plus si t’as une base plus grosse. Il te laissera les informations additionnelles que tu as mises.

Je me suis cassé la tête sur ce genre de chose, si j’avais use cette solution avant ma vie aurait été plus facile aha !

1 « J'aime »

Bonjour,
Je travaille également sur la mise à jour de fichier de prospection B2B et avons une bonne partie d’entreprises avec Siren et c’est l’idéal, car pour les autres il y a effectivement societe-info qui est bien
Mais le fichier siren est en open data du coup on peut retrouver le N°siren à partir du nom de société
Et pas pire que societe info qui capte la même info je pense
Seule galère c que plus de 5Millions d’entreprise ça passe pas dans excel et encore moins GSheet.
Donc SQL .?
Quelqu’un a des idées car j’ai les fichiers mais connais pas SQL