scraping url

Bonjour à tous,

Je suis à la recherche d’une méthode pour extraire des listes d’URL à partir de dorks. La spécificité de mon outil est qu’il doit trouver des sites publiés entre 2020 et 2024. Le souci, c’est que j’ai essayé plusieurs moteurs de recherche sans succès. Quelqu’un aurait-il une méthode ou un moteur de recherche à me conseiller pour pouvoir faire cela ou une solution alternatifs?

tu parles de google dorking ? et que tu veux appeler la serp ?

tu as serper.dev et l’excellent autom qui fait ça en bing et google

je cherche une alternative gratuite :laughing:

le seul critère de recherche est la date de première publication du site ? (donc à peu près la date d’enregistrement du nom de domaine)

Car dans ce cas je ne suis pas sur que des requetes google soient les solutions les plus efficaces.

Tu cherches les urls au niveau mondial ? français ? d’entreprises ? associations, particuliers … ?

Je recherche des entreprises dans le secteur du commerce à l’échelle mondiale,

@weyz784

  1. Je ferais la 1ère étape en Dorking pour choper les liens.

  2. Ensuite un ImportXML par exemple dans Gsheets pour check si le site fonctionne, et le title et/ou H1 pour voir si ça paraît cohérent.

  1. Whois & Wayback, j’avais fait un petit truc (tu peux peut-être voir si y a une API Wayback qui correspond mieux à ton besoin) :
2 « J'aime »

Intéressant çà, @Kevin-Zimmermann tu demandes quoi exactement à GPT ? et techniquement tu appelles l’API depuis ton Gsheet ?

@DJousto

J’ai créé les Apps Script avec l’aide de ChatGPT (je suis pas dev), mais ça ne l’appelle pas dans le projet si mes souvenirs sont bons. Ça appelle l’API Whois Json & Wayback.

Mais ça serait une très bonne idée, voici un moyen de faire pour appeler OpenAI dans Gsheets directement (que j’ai récupéré je ne sais plus où, à ajuster en fonction du besoin) :

La formule dans le Google Sheets :
=OpenAI(CONCATENATE("Mets toi dans la peau d'un Sales et fais un résumé de la description de ", INDIRECT(ADDRESS(ROW(), COLUMN()-13)), " en reprenant les informations importantes parmi ce texte. Résume en français: ", INDIRECT(ADDRESS(ROW(), COLUMN()-1))))

Le Apps Script appelé par la formule :

// Déclaration correcte de la constante OPENAI_API_KEY
const OPENAI_API_KEY = 'VOTRE_CLE_API_OPENAI';

function OpenAI(content) {
  // Correction de l'URL et suppression des espaces
  const apiUrl = 'https://api.openai.com/v1/chat/completions';

  // Correction de la concaténation dans l'en-tête d'autorisation
  const headers = {
    'Authorization': 'Bearer ' + OPENAI_API_KEY,
    'Content-Type': 'application/json'
  };

  const data = {
    'model': 'gpt-4',
    'messages': [{'role': 'user', 'content': content}],
    'temperature': 0.7
  };

  const options = {
    'method': 'post',
    'headers': headers,
    'payload': JSON.stringify(data),
    'muteHttpExceptions': true
  };

  try {
    // Correction de la syntaxe pour appeler UrlFetchApp.fetch et traitement de la réponse
    const response = UrlFetchApp.fetch(apiUrl, options);
    const json = JSON.parse(response.getContentText());
    // Correction de l'accès à la propriété 'choices' et de l'indice
    const choice = json.choices[0].message.content;
    return choice.trim();
  } catch (error) {
    return 'Erreur lors de l\'appel de l\'API OpenAI: ' + error.toString();
  }
}

:warning: Veillez-bien à stocker le rendu en dur, car si vous rouvrez le Google Sheets, ça va refaire tous les calls API vers OpenAI pour regénérer le résultat (et vous payerez pour rien)

Il y a aussi parfois des différences dans les formules entre Gsheet English et French il me semble (virgule au lieu de point virgule, etc)

2 « J'aime »