[TUTO A to Z] Faire un scraper quotidien en Cloud

Hello tout le monde,

J’ai rédigé quatre articles medium pour apprendre à scraper un site tous les jours en cloud en utilisant :

  • selenium sur python (donc possibilité de scraper du contenu javascript !)
  • google cloud compute pour le serveur
  • google sheet pour stocker les données et y accéder rapidement
    *crontab pour rendre quotidien le scraping

Le tutoriel peut se diviser en 4parties :

  1. Comment avoir un serveur Google Cloud personnel : Comment scraper un site quotidiennement en Cloud avec Selenium from A to Z ? (Partie 1/4) | by Arnaud Hureaux | Medium
  2. Comment mettre en place le script python de scraping sur le serveur : Comment scraper un site quotidiennement en Cloud avec Selenium from A to Z ? (Partie 2/4) | by Arnaud Hureaux | Medium
  3. Bonus : exporter les données scrapées vers Google Sheet /être notifié par mail à chaque exportation : Comment scraper un site quotidiennement en Cloud avec Selenium from A to Z ? (Partie 3/4) | by Arnaud Hureaux | Medium
  4. Comprendre le code contenu dans le script python et les fichiers install.sh / start_headless.sh : Comment scraper un site quotidiennement en Cloud avec Selenium from A to Z ? (Partie 4/4) | by Arnaud Hureaux | Medium

Ca peut être très utile si vous cherchez à vous créer une base de données / suivre une valeur

Voilà hésitez par à me faire tous types de retours, en espérant que ça aide un maximum d’entre vous :wink:

13 « J'aime »

Bonjour Arnaud,
Merci énormément pour ces infos. Ce sont des sujets auxquels je m’intéresse particulièrement.
Cela me sera utile.

1 « J'aime »

Trop cool !
Par contre je te préviens mon tuto n’explique pas dans le détail comme je passe de l’HTML à une table pandas structuré avec BeautifulSoup

Mais c’est pas très compliqué à maitriser, perso j’avais appris avec ce tuto : Web-scraping avec Python : apprenez à utiliser BeautifulSoup, un pool de proxies et un faux user-agent | by Vital Shchutski | France School of AI | Medium

J’avais lu un article sympa sur ce sujet

Yes, Pupetter marche bien aussi, et a l’avantage de pouvoir être mit sur du serverless (lambda, cloud function), contrairement à selenium où ça m’a l’air impossible

Mais pour ceux qui savent que coder en python, selenium c’est le top