Avez vous deja rencontré cette problematique : j’ai une liste d’entreprises, et je souhaite classifier ces entreprises par code APE afin d’affiner le message pour chaque typologie d’entreprise.
On peut récupérer ce genre d’information sur verif.com, ou société.com.
Avez vous deja automatiser ce genre d’opération?
Avec un bot sur mesure, qui récupère le n° SIRET à partir du site web de l’entreprise, tu pourras ensuite croiser cette donnée avec la base SIRENE par exemple
Peu importe le langage, ça c’est propre à tes préférences et convictions
L’idée: à partir du website de l’entreprise, retrouver le n° SIREN (en général à proximité d’une mention RCS, dans des pages dont le nom est mentions légales, legal mentions, etc), puis enrichir à partir du SIREN via d’autres sources pour retrouver code NAF/APE et dénomination sociale.
Echelle de difficulté, je dirais… 6-7 / 10.
Pour se faire: le scripter soit même, Python + Selenium, ou PHP + CURL ou NodeJS + Fetch + Puppeteer (peut-être même jeter un œil du coté de PhantomBuster).
Tu peux le faire via un algo en deux temps:
Tu crawl le site web corporate via du curl/fetch classique, à la recherche de pages contacts/mentions légales
Si aucun résultat, tu refais le même job mais en headless browser via Selenium ou Puppeteer (afin de gérer de la navigation JavaScript, non gérable en mode requête HTTP pure).
A partir de la page des mentions légales / CGU / contact, si tu trouves une mention RCS et/ou nombre à 9 chiffres pour le SIREN par exemple, c’est BINGO (via regex + XPath).
à partir de cette page il identifie cette chaîne de caractères « […] SAS au capital social de 5.000,00 €, immatriculé au RCS de Paris sous le numéro 803 067 305, dont le siège social […] »
à partir de là tu peux automatiquement extraire le RCS Paris, et le numéro 803 067 305.
une fois le n° SIREN en main, tu peux croiser cette donnée avec l’API de la base SIRENE, et/ou faire un scraping sur une recherche verif.com/societe.com, et obtenir des informations telles que dénomination sociale, code APE/NAF, etc, etc