Contexte : Doit scraper 715 résultats sur le site Pappers apparaissant sur 20 pages
Problème : Seul la première page apparaît dans le fichier CSV
Objectif : Avoir un fichier avec tout les résultats contenant Nom Entreprises / Activité / Code APE / Nom du dirigeant / Date de création / Chiffre D’affaire/ Adresse / Email / Site internet / Téléphone
Question : Quels sont les outils et les methodes qui pourraient me permettre de scraper pappers en toute sérénité ?
Salut, j’ai une solution comme pappers (pas sortie officiellement encore) je te le fait gracieusement. ou je te file un abonement illimité j’ai 11 millions de sociétés. Dis moi le code naf ou l’activité et les filtres je te le sors ou envoie moi en mp ton mail
par contre j’ai pas la date de création en filtre pour la sélection, il faut tout télécharger ( et regarder la colonne date de creation)
J’inclus le filtre date de création dans 2 semaine, c’est une bonne idée.
Passe en privé j’aurai 10 x de contenu sur mails et tel ce week end ( la v2 a pris quelques retards) je te file un abo gratuit
Tu peux utiliser le plugin « webscraper » ( testé et approuvé sur ce site ) ou comme mentionné plus haut " octoparse "
La spécificité avec webscraper est lorsque tu définis ta pagination il faut indiquer l’élément de div associé ( " a.pagination.pagination-image-right " ) car les pages se génèrent dynamiquement.
le proverbe « le temps c’est de l’argent » n’est pas assez reconnu en fr
D’ailleurs, j’ai l’impression que cela se voit au niveau des horaires de boulot FR vs USA.
En FR, restez tard est bon signe (cela veut que qu’on boss bcp)
Aux US, restez tard est mauvais signe (cela veut dire qu’on ne sait pas gérer le tps)
C’est assez vrai les Américains nous gagnent la plupart du temps sur l’exécution…
Pour seul contre la mesure du résultat pas comme on y parvient.
Peut-être les Français, c’est notre côté artiste bidouille… si fait que nous aimons bien obtenir la satisfaction de comprendre et réaliser par nous-mêmes le « bel ouvrage ».
Pas le plus efficace au sens économique mais satisfaisant.
Des avis ?
Je confirme… a mon sens, que l’école française est exemplaire en ce point qu’on apprend dès les petites classes a comprendre les choses, alors que l’école aux USA, c’est plus porter sur faire les choses.
Du coup, plus grand, un Français adorera bien analyser les choses, et aura plus peur de l’échec que l’américain, qui va lui, foncer et faire les choses, quitte a aller d’échec en échec.
Je découvre ton blog scrapping avec intérêt, meême si je ne comprends pas tout du service que tu proposes
Bon je me soigne pour essayer de comprendre
Renaud
Si le temps passé ne rentre pas en considération, autant utiliser les Api de data.gouv et de l’inpi, toutes les données qu’ils proposent sont dessus. Par contre ils offrent une valeur ajoutée au niveau consolidation / organisation des données.
Bonsoir, Avec l’extension Instant Data Scraper sur navigateur chrome , tu as possibilité de récupérer la données avec pagination donc sur tes 20 pages. Pappers limite a 20 pages mais si tu segmente bien ta recherche à chaque fois tu peux récupérer ce dont tu auras besoin dans l’ensemble.
Hello J’ai un soucis lorsque j’utilise webscraper. Malgré la mise en place de l’étape de pagination seule la 1ère page est scrapée. J’ai appliqué la même méthode que j’applique à chacune de mes utilisations de webscraper mais ici sur Pappers ça ne fonctionne pas. Aurais-tu une solution ?
Thanks
Lorsque tu met la pagination il ne faut pas oublier de mettre en processus précédent "ROOT " ET AUSSI « PAGINATION » dans la section « PARENT SELECTORS »