A partir d’une liste de sites internet (1000 websites), je souhaite trouver leurs emails correspondants.
Je pensais engager un assistant virtuel qui utiliserait hunter.io, mais on m’a dit que cet outil avait des limites et qu’il ne trouverait pas toutes les adresses email.
Des avis sur la question ?
Comment pourrais-je m’y prendre ?
A noter que je vais extraire les sites web du site kompass
D’après ce que j’en sais, la faiblesse de emailhunter dot co réside principalement dans le fait qu’ils ne mettent à disposition que les emails trouvés (et donc existant) par leur outil de crawl. Ils ne devinent pas les emails à partir d’un pattern donné, ils ne donnent que ce qui existe sur le Web. Pour résumer, si leur crawler n’a jamais croisé sur la toile d’emails appartenant à tel ou tel nom de domaine, il te sera impossible d’utiliser cet outil pour obtenir ces emails.
Autre point faible, il y a me semble t-il une grosse partie de boulot manuel à faire si tu veux utiliser leur outil à partir de ta propre liste de sites Internet, alors que tu aurais tout intérêt à automatiser le process au maximum.
Une autre technique serait de développer un crawler qui va se balader sur chacune des URLs de ces sites Internet, afin d’y trouver les adresses emails, en recherchant par exemple les pages de contact (ou certainement qu’un tel outil en ligne existe déjà?).
@NoirCap c’est très simple même si tu n’es pas développeur.
Tu peux utiliser un tool comme SCRAPEBOX qui profite depuis quelques mois d’une fonctionnalité de collecte des mails.
En gros, tu renseignes les sites que tu veux analyser, le logiciel passe toutes les pages de chacun des sites en revue pour en extraire les mails. C’est très efficace.
Néanmoins attention, cette pratique est un peu borderline aux yeux de Google et des autres moteurs de recherche. Pourquoi Google ? Parce que l’outil récupére l’ensemble des urls de chaque site avec une requête « site: » sur Google et profite donc de l’indexation. Puis le robot visite les pages et en extrait tous les mails à la vitesse de la lumière.
Pour éviter le blacilistage de ton IP, n’oublie pas d’utiliser un proxy ou plusieurs si tu fais du multithread comme un cochon.
Hello, je suis le cofondateur d’Email Hunter. La tâche que souhaite réaliser @NoirCap correspond tout à fait à ce que fait Email Hunter du coup je suis pas sûr que comprendre les deux inconvénients que tu mentionnes.
Même pas besoin d’assistant virtuel en fait, ça peut se faire en 5 minutes avec le bulk Domain Search: Sign in • Hunter
Tu envoies la liste de domaines que tu as et Email Hunter retourne la liste d’emails utilisant ces domaines sur le web entier, avec scores de confiance et classement génériques/personnels.
Concernant les guess utilisant le pattern, Email Hunter le fait aussi, c’est ce qu’on appelle l’Email Finder. Mais dans ce cas il faut bien entendu donner les noms avec pour qu’on puisse savoir quels emails deviner.
Hello, je ne viens de voir le thread que maintenant, déso pour le retard…
Ce que je voulais dire c’est que, si le nom de domaine demandé n’a jamais été crawlé/indexé/trouvé, il est impossible d’avoir des emails associés à ce nom de domaine. Bien sûr , il s’agit d’un cas assez rare
Je trouve la récupération des adresses email assez simple avec email sourcer (ou emailhunter, etc.) mais la principale question pour moi est la validation. Lorsqu’on a récupéré des centaines de milliers d’adresses il faut les filtrer, d’abord pour celles qui ne sont simplement pas valides (mais lorsqu’elles ont été récupérées récemment sur le site de la société, ce n’est pas vraiment un problème) mais surtout pour choisir la ou les quelques meilleures et ne pas brutalement spammer toutes les boîtes, ce qui est contre-productif.
Des idées ou des suggestions là-dessus?
Pour la déliverabilité des emails je t’invite à consulter la liste des outils faite par Camille, dans la catégorie Email verification: La toolbox du growth 🧰
Si tu passes par Hunter tu peux utiliser le score de confiance qui filtrera déjà bien ta liste des emails risqués. Si tu veux être sûr d’un taux de déliverabilité très élevé il faut passer par un outil de vérification.