Récuperer le code APE d'entreprises en masse

Bonjour,

Avez vous deja rencontré cette problematique : j’ai une liste d’entreprises, et je souhaite classifier ces entreprises par code APE afin d’affiner le message pour chaque typologie d’entreprise.

On peut récupérer ce genre d’information sur verif.com, ou société.com.
Avez vous deja automatiser ce genre d’opération?

Bonjour,

Du côté applicatif, je ne connais pas.

Mais en codant, c’est rapidement faisable avec societe.com.
Même le répertoire sirene sur le site l’INSEE est protégé par un Captcha.

Mais reste à voir la quantité des code APE à vérifier, faut éviter de le brusquer …

Tu as le numéro de SIRET des entreprises ?

Je remet ce message à jour.

Je souhaiterai classifier des entreprises par code APE afin de voir quel secteur focus. J’ai à ma disposition : @ / Nom de société / www.

Avez-vous des idées ?

Hello, quel est le code APE cible et combien de ligne s’agit-il ?

Avec un bot sur mesure, qui récupère le n° SIRET à partir du site web de l’entreprise, tu pourras ensuite croiser cette donnée avec la base SIRENE par exemple :slight_smile:

Sous python? Merci pour la piste !

Sur un degré de difficulté on se situe à combien sur 10 ? haha :slight_smile:

Je ne vois pas comment tu peux identifier le nom de la société ?

Par exemple, si on prend l’entreprise TEST1 et que sa dénomination légal c’est Test Techno et son site www.test.io

Je vois pas comment tu peux retrouver la dénomination légale depuis le site web d’une boite?

Peu importe le langage, ça c’est propre à tes préférences et convictions :slight_smile:

L’idée: à partir du website de l’entreprise, retrouver le n° SIREN (en général à proximité d’une mention RCS, dans des pages dont le nom est mentions légales, legal mentions, etc), puis enrichir à partir du SIREN via d’autres sources pour retrouver code NAF/APE et dénomination sociale.

Echelle de difficulté, je dirais… 6-7 / 10.

Pour se faire: le scripter soit même, Python + Selenium, ou PHP + CURL ou NodeJS + Fetch + Puppeteer (peut-être même jeter un œil du coté de PhantomBuster).

Tu peux le faire via un algo en deux temps:

  1. Tu crawl le site web corporate via du curl/fetch classique, à la recherche de pages contacts/mentions légales
  2. Si aucun résultat, tu refais le même job mais en headless browser via Selenium ou Puppeteer (afin de gérer de la navigation JavaScript, non gérable en mode requête HTTP pure).
  3. A partir de la page des mentions légales / CGU / contact, si tu trouves une mention RCS et/ou nombre à 9 chiffres pour le SIREN par exemple, c’est BINGO (via regex + XPath).

Exemple, admettons que ton bot:

  • arrive sur la page web de FouleFactory
  • il trouve un lien vers la page mentions légales: https://www.foulefactory.com/mentions-legales/
  • à partir de cette page il identifie cette chaîne de caractères « […] SAS au capital social de 5.000,00 €, immatriculé au RCS de Paris sous le numéro 803 067 305, dont le siège social […] »
  • à partir de là tu peux automatiquement extraire le RCS Paris, et le numéro 803 067 305.
  • une fois le n° SIREN en main, tu peux croiser cette donnée avec l’API de la base SIRENE, et/ou faire un scraping sur une recherche verif.com/societe.com, et obtenir des informations telles que dénomination sociale, code APE/NAF, etc, etc :slight_smile:
3 « J'aime »

Hello, juste faire attention aux information herbergeur qui vient mettre son grain de sable dans le processus.

1 « J'aime »

Oui il y aura des false positives, c’est un inconvénient et ça ne sera pas parfait…

sinon solution payante : utiliser l’API de societeinfo.

1 « J'aime »

Les données des entreprises sont en open data, tu peux tout télécharger, ou plus élégant, utiliser une api sur https://entreprise.data.gouv.fr/

D’une manière générale, data.gouv.fr est une vraie mine d’or :slight_smile:

Bonus, c’est gratuit et maintenu par les administrations :slight_smile:

Ou si les noms de tes sociétés cibles ne sont pas trop génériques, tu peux automatiser (par exemple avec le plugin gratuit de webscraper.io) :

  • Recherche google « {nom societe} societe.com »
  • Cliquer sur le premier résultat
  • Récupérer le code APE dans le premier tableau sur la page des résultats
2 « J'aime »

Comment fais-tu pour automatiser la recherche google avec webscraper ?

J’aimerai faire la même chose sur société.com en recherchant par numéro de siret.