Scraper similarweb

Bonjour à tous,
je cherche à scraper quelques urls sur similarweb.com
J’ai d’abord tester scraperweb (l’extension chrome). Sauf que j’ai un Recaptcha toutes les 20 requêtes … Bon je m’y attendais…
Du coup, je me suis lancé à la quête d’un développeur qui pourrait me faire ça. Le dev me dit qu’il peut scraper sans problème avec une dizaine de proxies. SI je souhaite scraper 10k urls, et que je suis bloqué toutes les 20 requêtes quand je le fais, je ne comprends pas comment il peut y arriver. Il me dit que passer par un navigateur (chrome) comparé à son système n’ont strictement aucun rapport. Je n’y connais pas grand chose, je souhaite juste comprendre en quo c’est différent. Je vous remercie

1 « J'aime »

Hello,

C’est difficile de te dresser un comparatif, si on ne sait même pas comment va faire ton dev…

Quelle(s) technos est-ce qu’il va utiliser? Si un vrai navigateur web chrome se fait bloquer par des captchas, il parait improbable qu’un autre système de type requêtes HTTP brutes fasse mieux.

Si il te dit qu’il peut scraper sans problèmes, peut être que c’est vrai mais faudrait qu’il t’en donne la preuve, ou t’en fasse la démo sur plusieurs heures :slight_smile:

Hello,

Juste pour être sûr de bien comprendre, tu pars d’une liste d’urls existantes ? Ou tu souhaites scraper les infos de la plateforme ?
Similarweb est compliqué à scraper, j’en ai fait l’expérience même avec 200 proxies.

En revanche, SIMILARTECH qui a été rachetée par Similarweb il n’y a pas longtemps utilise toujours leur API (et non pas un scan dynamique à la Builtwith) pour renvoyer des réponses sans limite. Il te suffit donc de simuler un clic sur l’extension (qui est beaucoup + stable que celle de Similarweb) et de stocker cela en base.

Rien de bien compliqué et tu pourras réutiliser ton outil tout le temps :slight_smile:

1 « J'aime »

J’ai une liste d’url existante du style : https://www.similarweb.com/fr/website/growthhacking.fr
Je souhaite en tirer le rank par exemple

Pour répondre à ta question, il développe sur .NET

Merci pour ta réponse. Il ne fait pas de requêtes HTTP brutes, c’est sûr. Mais que peut-il faire en fait ? J’ai testé hier soir son système, ça marche nikel. En fait ma question est "quelles sont les autres possibilités que de passer par du http request

Appeler l’API Similarweb en passant le domaine comme paramètre et tu auras les infos :slight_smile:

Dac merci. Mais on est bien d’accord qu’elle est payante ? (l’API) Car je les ai contacté avant toutes choses et ça se chiffre à mini 1k par mois…
En tout cas ,je ne sais pas depuis quand growthhacking.fr existe, mais c’est une superbe idée. Ravi de l’avoir découvert :smiley:

Oui en effet c’est payant mais pour 10K urls, je pensais que cela n’allait pas être très cher… :slight_smile:

A mon époque, ils avaient une offre pour en fonction du nombre de calls utilisés sans minimum…

Oui exact. J’ai vu passer sur des forums des personnes se plaignant de l’augmentation démentielle de leur forfait :upside_down_face:

6 ans… :wink:

1 « J'aime »

ah oui quand même :sweat_smile:
Je pense que c’est dû (pour ma part) au fait qu’on cherche en général des infos en anglais sur le scraping. Mais cette fois ci, j’ai cherché en français :wink:

Hello,

j’ai déjà réalisé ce scraping dans le passé (il y à 2-3 ans).
Si tu as besoins d’aller plus loin pour orchestrer le scraping, contacte moi en MP :slight_smile:

Bonjour à tous,

un bot en python avec intégration de https://2captcha.com/ fait l’affaire.
Je suis passé par fiverr et en ai eu pour 250€

2 « J'aime »

Marrant de voir cette thread. J’ai récemment eu le même besoin.
Les tarifs de SimilarWeb sont totalement prohibitifs ($1.5 par appel API sur leur plan le plus petit de mémoire).

Au final on est passés par l’API Alexa. C’est beaucoup moins précis, mais pas cher et simple à mettre en place.

Tu arrives à faire du volume? Ca te coûte combien à l’usage?

Par curiosité, c’était pour quel projet ?

2captcha c’est 1usd les 1000 il me semble

En dehors bu build du bot, juste les crédits pour 2captcha.com
Considère que 5% des query vont tomber sur un captcha
j’ai du payer 125€ pour 300k sites
c’est plus que raisonnable

Grave! Pas cher du tout!