Hello tout le monde,
J’ai rédigé quatre articles medium pour apprendre à scraper un site tous les jours en cloud en utilisant :
- selenium sur python (donc possibilité de scraper du contenu javascript !)
- google cloud compute pour le serveur
- google sheet pour stocker les données et y accéder rapidement
*crontab pour rendre quotidien le scraping
Le tutoriel peut se diviser en 4parties :
- Comment avoir un serveur Google Cloud personnel : Comment scraper un site quotidiennement en Cloud avec Selenium from A to Z ? (Partie 1/4) | by Arnaud Hureaux | Medium
- Comment mettre en place le script python de scraping sur le serveur : Comment scraper un site quotidiennement en Cloud avec Selenium from A to Z ? (Partie 2/4) | by Arnaud Hureaux | Medium
- Bonus : exporter les données scrapées vers Google Sheet /être notifié par mail à chaque exportation : Comment scraper un site quotidiennement en Cloud avec Selenium from A to Z ? (Partie 3/4) | by Arnaud Hureaux | Medium
- Comprendre le code contenu dans le script python et les fichiers install.sh / start_headless.sh : Comment scraper un site quotidiennement en Cloud avec Selenium from A to Z ? (Partie 4/4) | by Arnaud Hureaux | Medium
Ca peut être très utile si vous cherchez à vous créer une base de données / suivre une valeur
Voilà hésitez par à me faire tous types de retours, en espérant que ça aide un maximum d’entre vous