comment scraper ce site

Bonjour à tous,

je suis novice au scraping et j’aimerai beaucoup récupérer le fichier des entreprises et surtout l’adresse mail :https://www.lyon-franchise.com/exposants/
Avez-vous une ou plusieurs idées à la portée de mon niveau?
Un grand merci par avance pour vos retours.

edit : hello indeed :wink:

avec ou sans code ?

pour le code, g pondu un truc rapidos que fonctionne en théorie :

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

driver = webdriver.Chrome()
driver.get("https://www.lyon-franchise.com/exposants/")
infos = driver.find_elements(By.XPATH, '//div[@class="bloc info"]/h2/a')

for elt in infos:
    url = elt.get_attribute("href")
    driver.get(url)
    link = driver.find_element(By.XPATH, "//a[@href='#contactsSte']")
    link.click()
    bloc = driver.find_element(By.XPATH, '//section[@id="contactsSte"]')
    print(bloc.text)
    time.sleep(5) 

tu peux rajouter un truc avec regex sur email et numéro mobile pour avoir l’info essentielle

et biensur vérifie bien les TOS du site voir si l’exploitation automatique de données est autorisé

1 « J'aime »

Bonjour,

Voici le lien vers le scrap pour Lyon : Scrap pour Lyon.

Pour réaliser ce scrap, j’ai utilisé deux outils gratuits : Instant Data Scraper et BrowserFlow. Le processus se déroule en deux étapes :

  1. Récupération des liens : Utiliser Instant Data Scraper pour extraire les données et les importer dans un Google Sheet.
  2. Automatisation du scrap : Connecter BrowserFlow à ce Google Sheet pour exécuter le mini-script (pas d’inquiétude, il s’agit d’une solution no-code).

Il y a un point important à noter avec BrowserFlow : la version gratuite s’interrompt toutes les 1 minute. Pour éviter que le script ne scrape à nouveau les mêmes lignes, il suffit de créer une colonne qui coche un « 1 » pour chaque ligne traitée, puis de configurer BrowserFlow pour qu’il passe aux lignes suivantes sans réexécuter celles déjà traitées.

Si mes explications ne sont pas assez claires ou si tu as besoin d’aide, n’hésite pas à me contacter en privé. Nous pourrons organiser un appel pour que je te guide dans le processus.

Bonne journée !

3 « J'aime »

merci beaucoup pour ta réponse mais je suis un vrai débutant :upside_down_face:
Je ne sais pas trop ou mettre ce code :pensive:

oh PU*AIN :star_struck: :star_struck: :star_struck: :star_struck: :star_struck: :star_struck: :star_struck: :star_struck:
Excellent MERCI MERCI BEAUCOUP pour le google sheet :pray: :pray: :pray: :pray:
Je vais tester ta technique et te dirai si j’y suis arrivé de mon côté
Encore un GRAND GRAND merci :smiley: :smiley:

ça y est j’ai mis les 2 mains dedans et j’y suis arrivé.
Je mes suis entrainé sur un autre site pour voir si j’avais bien compris et ça fonctionne
Du coup je fais tout avec BrowserFlow : 1 premier script pour récupérer les lignes à scraper avec un lien à explorer ensuite, je mets tout ça dans un google sheet et un 2è script qui suit le lien et enrichit le fichier avec les nouvelles data. J’ai ajouté aussi comme tu me l’a recommandé la colonne « qui coche un 1 » c’est top ça.
Merci beaucoup

Bonjour Phil,

C’est un plaisir ! Maintenant que tu es lancé, tu vois, on y prend vite goût. Si un jour tu as la moindre question ou rencontre le moindre problème, n’hésite pas à me contacter, je serai ravi de t’aider.

1 « J'aime »

Bonjour, je suis récemment tombé sur cet article qui donne une introduction complète sur comment scraper les sites de salons et récupère les emails des exposants

1 « J'aime »