Bonjour,
Je recherche bêtement à scrapper les urls des différents départements de ce site mais je n’y arrive pas.
Avez-vous une astuce ?
http://www.1001france.fr/
Bonjour,
Je recherche bêtement à scrapper les urls des différents départements de ce site mais je n’y arrive pas.
Avez-vous une astuce ?
http://www.1001france.fr/
Bonjour,
C’est ça que tu veux : http://www.1001france.fr/sitemap.xml ?
Comme disait @NicolasF, tu cherches à faire quoi exactement? Juste récupérer les URLs des différents départements, ou bien scraper le contenu de chaque page de département?
En fait, je cherchais à récupérer tous les sites étant dans chaque page.
Avec parsehub, j’ai plus ou moins réussi à faire ce qje je voulais.
En gros mon souhait, pouvoit scrapper tous les sites d’office de tourisme si jamais vous avez des idées, je suis preneur !
Bonjour @Davidplanch,
Quand on regarde le site [http://www.1001france.fr/ ], on voit qu’il n’y a pas beaucoup de sites d’office de tourisme renseignés. En fait il n’y en a quasiment pas.Tu as plus d’offices ici : https://www.tourisme.fr/annuaire-offices-tourisme-en-france.htm
Un petit script JS et c’est plié.
Pas certain que cette source doit davantage pertinente, je viens de faire plus de 20 pages à la main, et il n’y a rien, les liens vers les sites Internet des offices sont faux et pointent sur la même page (la page de l’office de tourisme sur laquelle on est déja).
En fait non, si on clique sur le lien « Site internet officiel » le site officiel apparait en dessous.
exemple : https://www.tourisme.fr/2308/office-de-tourisme-la-baule.htm
Bien vu ! @NicolasF sorry j’ai parlé trop vite
@ScrapingExpert je m’étais fait avoir aussi
Merci à tous, he vais tester sur le site tourisme.fr avec parsehub ! Le script JS, je connais un peu moins donc plus difficile pour moi.
C’est simple ?
@Davidplanch Faut connaitre un peu le Javascript… tiens moi au courant si parsehub fait le taf.
j’avais réussi mais j’ai une limitation de 200 pages malheursueement… Si jamais il y a un tuto simple permettant d’expliquer comment ça fonctionne, je suis preneur, sinon, tampis !
Merci
Tu peux tenter le coup avec l’extension Dataminer.io, en deux étapes:
Merci,
En fait, en fouillant rapidement, j’ai pu récupérer le sitemap et ensuite en hachant les urls par 50, j’ai pu faire u google sheet avec import xml et c’était bon
Pas de besoin de faire de scraping en fait.
Merci à tous !
Reste plus qu’à trouver les bons emails…
Ca reste du scraping quand même
Pour trouver les emails, il te faut un bot d’extract d’emails à partir de l’URL d’un site.
Tu peux utiliser Phantombuster pour ça, via cette brique:
https://phantombuster.com/api-store/6774/email-extractor?referral=growthhacking-5VaJxDdpb
Bonjour à Tous,
Quelqu’un a t il du nouveau au sujet de ce projet de scrapping des emails des Offices de tourisme ?
J’ai envoyé des messages a davidplanch mais il semble qu’il n’est plus actif.
fp
J’ai ce lien avec les données des offices de tourisme d’IDF si cela intéresse quelqu’un.
http://pro.visitparisregion.com/en/Tools-and-press/Open-Data