Trouver les pages sociales d'un site web

Bonjour les Growth hackers ! Un challenge que vous avez peut-être rencontré, Ce que je souhaite faire:

1 - Je fournis l’url d’un site web à un outil/logiciel
2 - L’outil se charge d’identifier les profils sociaux liés à ce site web: page facebook, compte twitter, compte linkedin ( le plus important est de trouver sa page facebook)
3- l’outil me renvoie une liste des différents profils sociaux trouvés.

Quelqu’un aurait une solution ou un outil à ce problème?

Excellente journée!

Hello,

C’est une solution qui peut se développer facilement. De mon côté, j’ai créé un bot en Chrome Headless qui navigue sur les pages principales d’un site (homepage, pages de contact, mentions légales), et qui récupère les liens des divers réseaux sociaux (Facebook, Linkedin, Google+, Twitter, Instagram…), ainsi que les adresses emails présentes.

J’imagine du coup qu’il doit certainement déjà exister des solutions et outils pour non-dev qui implémentent cette fonctionnalité.

1 « J'aime »

hello
scrapebox a un module qui le fait :slight_smile:

1 « J'aime »

Merci @ScrapingExpert . Après ta réponse j’ai poursuivi mes recherches et je suis tombé sur cet outil très simple qui fait vraiment le travail: Social Media Scraper & Social Scraper

Le seul hic est que sur certains sites qui mentionnent bel et bien pages sociales, l’outil ne trouve rien.
Est-ce pareil avec ton bot ?

Tout compte fait c’est déjà mieux que rien

merci pour votre réponse. J’ai aussi trouvé cet outil Social Media Scraper & Social Scraper . Worth the try

Difficile à dire, tout dépend comment est implémenté leur algo, comment ils détectent les liens et comment ils parcourent les pages.

Sur les pages où il ne trouve rien, les liens des pages réseaux sociaux étaient pourtant flagrants? aurais-tu des des exemples à partager?

1 « J'aime »

Bien sûr ce site par exemple: www.patrickcollignon.com

Tous les profils sociaux y sont renseignés mais Octatools ne les trouve pas. Curieux de savoir ce que ton outil renvoie comme résultat

Correctif, après la réponse de @Rocket , on a effectivement des liens cachés au sein du head du html, le reste de ma réponse n’ayant donc que peu de sens…

On a juste le lien Facebook en haut de la page, mais pas d’autres liens de profils réseaux sociaux à 1ère vue. Où est-ce que tu les vois?

Sinon mon bot renvoie cela:

JSON results:

 {
      "facebook": "https://www.facebook.com/patrickcollignon.coach",
      "facebooklink": "https://www.facebook.com/patrickcollignon.coach",
      "emails": [
        "[email protected]"
      ],
      "contactlinks": [
        "https://patrickcollignon.com/contact/",
        "/contact/",
      ],
      "aboutlinks": [],
      "legalmentionLinks": [],
      "phones": [
        "+32 (0) 499 33 45 37",
        "32 (0) 499 33 45 37"
      ],
      "facebookdata": {
        "emails": [
          "[email protected]"
        ],
        "emailtexts": [
          "[email protected]"
        ]
      }
    }
2 « J'aime »

Tu peux aussi trouver pas mal d’informations dans les méta information de la page en question. Je sais pas si cela peut t’aider à enrichir ton robot.

3 « J'aime »

Voilà un format que je ne connaissais pas, un grand merci à toi : )

1 « J'aime »

je n’avais pas vu ta réponse. Sincèrement je ne comprends pas grand chose au code lol…

1 « J'aime »