Scraping Pagespro

Salut, j’ai déjà vu le sujet passé dans un forum, mais il n’y avait aucun élément de réponse concret.

Voilà ma requête, j’aimerais avoir un peu d’aide pour scraper ce site là : https://www.pagespro.com/recherche/auto/Paris%20(75)/toiture

L’idéal serait d’extraire pour chaque résultat les données présent en 2nd pagination (donc les données qui s’affiche quand on clique sur une entreprise) :

  • Le nom de l’entreprise
  • Le numéro de téléphone-
  • Le site web
  • L’adresse -
  • Le numéro de siret (présent en bas de page pour certain résultats)-

Le problème que je retrouve c’est qu’il y’a un lien qui mène à la fiche détaillé qu’une fois sur trois et c’est la ou je bloque.

Voilà vous savez tout :slight_smile:

Salut Elyes,
Avec quoi as-tu essayé ?
As-tu testé Octoparse par exemple ?

Octoparse ou Webscraper sont des outils adaptés pour ce genre de tâche.

Si tu ne trouves pas de fiche détaillée pour chaque entreprise, il est normal que tu ne puisses pas obtenir toutes les données. Cependant, avoir un tiers des fiches complètes est mieux que rien.

Pour les deux tiers restant en utilisant l’adresse et le nom de l’entreprise, tu peux également retrouver des informations supplémentaires sur Google My Business, Pappers (societe.com), ou Sociétéinfo, par exemple.

Depuis Google My Business, tu peux scraper leur site web pour retrouver des e-mails génériques et leur page LinkedIn pour obtenir des informations sur les employés Captain data pour créer des workflow simples.

Depuis une fiche entreprise sur Pappers, tu as le nom du dirigeant. Avec le nom de l’entreprise et du dirigeant, tu peux utiliser des services comme Fullenrich pour obtenir des coordonnées, pour augmenter le taux d’enrichissement il faut trouver le LinkedIn et le site internet tu peux utiliser Captain Data pour cela.

Donc, même sans les fiches détaillées, il est tout à fait possible de scraper et de compléter les informations par d’autres moyens.