Aurais-tu des billes sur comment scraper directement les nouvelles publications d’une page LinkedIn automatiquement sans se faire détecter ?
Je suis aussi intéressée pour Twitter à partir de mots clefs sur des volumes assez importants si tu veux partager quelques infos (pour créer des data set pour usage perso).
Scraper directement la page en HTML sans se connecter, utiliser https://www.google.com en Referer et un User-Agent crédible.
Ex. le HTML de Germinal | LinkedIn me permet d’obtenir les derniers posts de la boîte.
Farme du cookie Twitter et utilise directement les endpoints JSON. Ça fait un moment que je n’ai pas détourné l’API publique donc je ne sais pas à quelle fréquence ils pètent si tu fais des appels en boucle. Si tu as besoin d’une solution clé-en-main je peux regarder mais je ne prends aucune commande en dessous de 500€.
Merci pour ton retour c’est super sympa. Jusqu’a présent sur Linkedin, je faisais en manuel car pas le temps de me pencher dessus et j’ai un code en Python qui extrait le texte des publications et des formules Excel qui faisaient le reste. Merci, je vais tâcher de regarder ça.
Pour Twitter, je prends note si jamais mais comme c’est pour mon usage perso face au coût d’extraction des tweets
En tout cas gros merci et hâte de suivre ce topic,
Bonne soirée !
Bonjour, j’essaye de scraper des données sur vinted (noms de produits, prix, url, s’ils offrent une vérification). J’ai essayé avec beautifulSoup mais je me fais bloquer par le site qui me demande de faire un catcha. Est-ce que tu pourrais m’aider s’il te plaît ?
Edit: non, le site est juste horrible avec une version très vieille d’ASP.NET. Par contre Qualibat fait vraiment de l’antiscraping avec Google ReCaptcha V3 certainement : Qualibat
Merci beaucoup ! C’est hyper util. Est-ce qu’il y a une sorte de documentation pour les différents elements du lien / un moyen de voir les brand_ids, color_ids, … disponibles ?
D’autre part, je n’arrive toujours pas à prendre ces donnés pour les utiliser dans un script python.
J’ai essayé le code ci-dessous, mais ça me donne, entre autre :
https://www.vinted.fr/api/v2/catalog/initializers?search_text=&supported_display_types=list,list_search,grid,hybrid_price
Aller dans dtos > dynamicFilters
Je t’invite à te renseigner sur les headers et les cookie.
Merci ! Il n’y a cependant pas tous les codes de marques mais ce n’est pas le plus important et je vais essayer de les trouver moi-même sur Vinted.
Je viens d’essayer avec selenium de mettre des headers et j’ai essayé de sauvegarder les cookies mais la réponse que j’ai maintenant est la suivante et est la même à chaque fois: {« code »:100,« message »:« Jeton d’authentification invalide »,« message_code »:« invalid_authentication_token »}
Le json que le lien donne est parfait et c’est tout ce dont j’ai besoin, mais je n’arrive pas du tout à prendre le texte qui s’y trouve avec une request ou un bot.
EDIT: Je n’arrive à accéder au site que sur Safari avec mon Mac. Ça ne marche pas avec chrome ou sur mon téléphone. Ça donne la même erreur de jeton invalide. Cette erreur est aussi apparue une fois sur safari mais plus depuis.
Ça ne sert à rien que je t’explique maintenant, tu as des choses à apprendre avant de pouvoir être à l’aise avec ce type de scraping. Utilise Postman pour simuler tes requêtes et essaie jusqu’à ce que ça fonctionne
Tu sais comment scrapper les profils de chômeurs présents sur le site de Pôle Emploi ? Et récupérer les emails et tel ?
On a pas trouvé de méthode ou on se fasse pas ban à ce stade.