Bon tout est dans le titre mais voilà, j’ai beaucoup d’URL Linkedin et j’aimerais obtenir le nom de l’entreprise de chaque URL, scrapping assez simple sur webscrapper et ça marche mais le prbl est que je dois rajouter manuellement chaque URL pour refaire le scrap. C’est assez long, quelqu’un a une idée ?
Je suis pas expert en scrapping mais si j’ai bien compris je crois que j’ai rencontré la même problématique.
Ma solution artisanale :
Tu copies / colles l’ensemble de tes urls sur une page web provisoire et tu indiques cette page web comme start url sur webscrapping. Ensuite tu explores chaque lien avec webscrapping comme si c’était de la pagination et tu récupères ton contenu de ce lien.
Pour cela tu exporte le sitemap de template actuelle (pas la version csv) qui va te servir de base et tu rajoutes l’ensemble de tes liens dans ce sitemap (demande si tu galère à formater les urls en url,url,url…) et tu importe ce nouveau sitemap.
Je rejoins les différentes réponses déjà évoquées :
Tu créer son sitemap avec webscraper sur ta page type que tu souhaite scrapper
Tu exporte le sitemap dans un google sheet
Pour créer les URL simplement = go concaténation
Pour la concaténation :
colonne A : "
colonne B : URL obtenues
colonne C : ",
=CONCATENER(A1;B1;C1)
(à la dernière URL transformée pense à virer la virgule)
prends ce résultat copie colle en valeurs les résultats dans une colonne à coté, on va dire que c’est la cellule Z
créer une autre feuille pour une 2e concaténation :
colonne gauche = {« _id »:« linkedincompany »,« startUrl »:[
colonne milieu = ta cellule Z
colonne droite = ],« selectors »:[{« id »:« name »,« type »:« SelectorText »,« parentSelectors »:[« _root »],« selector »:« .org-top-card-summary__title span »,« multiple »:false,« regex »:« »,« delay »:0}]}
Normalement tu a un sitemap en JSON à copier coller lorsque tu feras « import sitemap »
Merci à tous d’avoir répondu ! J’ai bien réussi grâce à vous de scrapper plusieurs URL mais je pense que les URL Linkedin sont protégés car vos techniques marches pour d’autres sites mais pas celui là. Voici le JSON que j’ai utilisé :
{« _id »:« efedsvd »,« startUrl »:[« https://www.linkedin.com/in/golfieri-guillaume-5ab89b6a/ »,« https://www.linkedin.com/in/tracy-willis-0a698477/ »,« https://www.linkedin.com/in/annelisemasson/ »,« https://www.linkedin.com/in/samantha-marciszewer/ »],« selectors »:[{« id »:« element »,« type »:« SelectorElement »,« parentSelectors »:[« element »],« selector »:« li#\31 003953828 »,« multiple »:true,« delay »:0},{« id »:« Element »,« type »:« SelectorElement »,« parentSelectors »:[« _root »],« selector »:« li#\31 003953828 »,« multiple »:true,« delay »:0},{« id »:« compay »,« type »:« SelectorText »,« parentSelectors »:[« Element »],« selector »:« span.pv-entity__secondary-title »,« multiple »:false,« regex »:« »,« delay »:0},{« id »:« company 2 »,« type »:« SelectorText »,« parentSelectors »:[« Element »],« selector »:« h3 »,« multiple »:false,« regex »:« »,« delay »:0}]}
Je pense que c’est dans le « selector », Linkedin prend des balises uniques avec un chiffre par profil même si la balise est la même, ça fait « xxx3290" » pour un autre « xxx4390 » par exemple, du coup webscraper est perdu