Vous scrapez quoi et comment ?

Hello à tous :slight_smile:

Je travaille sur un nouveau projet IA (sorry pour le buzzword) qui permet de scraper très facilement et intelligemment le contenu de pages web sans avoir à se casser la tête avec la structure de la page ou autre.

Du coup, j’aurais bien aimé en savoir plus sur vos habitudes de scraping :

  • Vous scrapez quoi en général ?
  • Combien de temps ça vous prend ?
  • Quels outils vous utilisez ?
  • Quelque chose à dire en particulier ? :slight_smile:

Merci d’avance pour vos feedbacks ça serait bien utile :slight_smile:

1 « J'aime »

Ça ne répond pas à ta question, mais welcome sur le forum :wave:, j’ai vu passé tes posts LinkedIn. Notamment sur ta solution https://kobble.io/

1 « J'aime »

Salut

pour répondre à tes questions:

  • numero de téléphone, emails, réseaux sociaux, description générale de l’entreprise, description des ses offres/produits
  • ca me prend 1 mois pour un million d’entreprises
  • les outils, je code le tout, fait appels à quelques apis externe
  • bonne chance pour ton nouveau projet

Merci pour le warm welcome :slight_smile:

1 « J'aime »

ok très cool de savoir ça :slight_smile: merci beaucoup

Pour répondre à ta question :
Des emails
1 semaine avec des résultats moyens (100 à 500)
Phantombuster, sales navigator, dataforseo et Lemlist
J’essaie d’optimiser les coûts plus que du temps #alternance

1 « J'aime »

Ok très intéressant :slight_smile:

Tu as des phantoms que tu utilises plus que d’autres ou bien c’est à chaque fois des cas différents ?

Le maps to mails et le sales nav to mail
et le goat le maps scraper

1 « J'aime »

Top merci pour la réponse :slight_smile:

1 « J'aime »

Je crée un script dédié dédié à chaque site c’est plutôt long car je code sur plusieurs langages et ducoup même en commentant c’est relou de revenir sur mon code pour changer sur chaque site de plus j’ai un vieux pc je ne peux même pas utiliser selinium donc je dois faire avec bs4.
Et je la joue super safe j’utilise une ip de téléphone elles sont très dur à banir car il peut y avoir plusieurs personne qui détiennent la même ip et je met un timer de 10 à 30 secondes sur chaque page scrapé et 2 secondes par sous page. Et franchement peut importe le site à par leboncoin ça marche. Ça prend à peu près 5-10 minutes pour 100 pages avec 10 sous pages par page. Le dernier que j’ai récupéré c’est le site pap.fr

1 « J'aime »

Merci pour le feedback!

Et du coup c’est quoi le plus important pour toi (les autres aussi peuvent répondre :slight_smile: ) :

  • vitesse de scraping
  • coût du scraping
  • simplicité à déployer un scrapeur

Tu jouerais sur quelle variable si tu avais le choix ?

Coûts en premier et simplicité en second :wink:

2 « J'aime »

Scraping

  • Gmap
  • Website compagny
  • LinkedIn (page, profil, post, event …)
  • Job offer
  • Website (annuaire, répertoire, database…)
  • Serp google

J’ai peut etre oublié des choses

Le tout que je peux combiner dans n’importe quel ordre grâce au workflow dans Captain Data
J’ai des templates de ce que j’utilise le plus donc ça va vite
J’ai plusieurs comptes sales nav donc ça va vite aussi

1 « J'aime »

Moi j’aime bien l’open source et le tout gratuit je pense le coût en premier à part si on parle de temps moi si ça me prend trop de temps à le faire ça me soûle donc je pense le plus important pour moi c’est la simplicité de déployement je réfléchis à faire un outil qui prend en argument sur la console genre le nom du site et le truc à checher et qui fait le reste de manière automatique.

1 « J'aime »

Le plus important c’est ni le coût ni le temps c’est la qualité de ta liste si c’est gratuit que tu as mis 5 minutes à le faire mais que tu prospectes et que tu as que des bounces ou des refus ça ne sert à rien

1 « J'aime »

Bonjour, déjà je pense que tu as la bonne démarche, il faut partir d’un besoin avéré et y trouver une solution, au lieu de partir d’une solution et réfléchir à la fin à quoi çà pourra servir !! on voie pourtant souvent des projets de ce type :sweat_smile:

En ce qui me concerne je scrape :

  • du e-commerce : en général pas trop compliqué, je fais mes scripts en python / scrapy
  • pour le growthacking, c’est variable, en général on cherche des prospects, donc des mails ou téléphone, la complexité c’est pas de scraper, (en ce qui me concerne), c’est de trouver les bonnes sources de données, et recouper les différences informations pour les enrichir, donc je ne suis pas sur d’avoir besoin d’une IA
  • par contre j’ai été confronté à des cas ou je devais chercher un certain type d’infos sur des sites très variés, disons par exemple les tarifs de pressings pour faire des études de marchés, je cherche donc les pressings, puis leurs sites, puis les tarifs sur chaque site, et comme ils sont tous différents, là c’est un cas d’utilisation pertinent pour un outils à base d’IA, je cherche le tarif de repassage d’une chemise sur xx sites différents, un outil basé sur une IA (que j’ai testé, çà marche mais avec des erreurs) peut parcourir les sites, comprendre quelle page parle des tarifs, et les extraire, sachant que parfois ils sont sur une image, parfois sur un pdf etc …
1 « J'aime »

Hello, pour les sites internet, MAKE bloque à 40 minutes de process donc PYTHON est mieux pour les gros sites quand tu veux récuperer toute la partie SEO (les balises, noms des images, les h1 h2 h3, les mots en gras, les descriptions de produits, les liens internes, les liens externes), là tu peux faire une analyse SEO pour le site web et amorcer une traduction dans une autre langue ensuite. Sinon pour les contacts scrap.io est vrmt top. Quels use case vous avez?