DÉTECTEUR DE LANGUE MECILDI

Information à l’intention des webmasters

Résumé

MECILDI est un robot de recherche à but non lucratif géré par OBDILCI. Nous consultons les pages d’accueil des sites web à une fréquence comprise entre 1 et 4 fois par an afin d’évaluer le multilinguisme de ces sites. Notre bot est conçu pour être ultra-léger, ne consultant que 2 fichiers par domaine (robots.txt et la page d’accueil) afin de distinguer les sites web monolingues des sites multilingues. La sélection des sites web est aléatoire et la probabilité de visiter le même site plus d’une fois par an est très faible.

Méthodologie complète et comportement du robot d’indexation

Le projet MECILDI (Mesure ciblée des langues sur Internet, acronyme de la version française) est une initiative scientifique menée par l’organisme de recherche à but non lucratif OBDILCI (www.obdilci.org). Ce travail bénéficie du soutien de divers organismes gouvernementaux et de financement et est strictement dédié à la recherche universitaire.

Notre objectif est de créer une cartographie statistique de la diversité linguistique sur le Web. Contrairement aux robots des moteurs de recherche ou aux outils d’exploration de données, notre robot d’indexation suit un protocole visant à « minimiser son empreinte » :

Fréquence : En mode de fonctionnement standard, notre robot d’indexation visitera un domaine donné au maximum 1 à 4 fois par an, même si la plupart des sites ne seront visités qu’une ou deux fois.
- Note de développement : Au cours de notre phase actuelle de développement et de test, certains domaines peuvent être consultés plus fréquemment (tous les quelques jours). Cette période de test devrait s’achever au début du deuxième trimestre 2026, après quoi le bot reviendra à son cycle standard.
Profondeur : Nous n’explorons pas les pages internes. Nous interrogeons uniquement le fichier robots.txt et la page d’accueil racine d’un domaine.
Politesse : Notre bot respecte scrupuleusement les directives du fichier robots.txt.
Politesse : Notre bot respecte scrupuleusement les directives du fichier robots.txt.
Gestion du trafic : Nous limitons notre exploration globale à un petit nombre de requêtes simultanées (généralement 10) afin de ne pas surcharger les réseaux des hébergeurs.

Pourquoi mon site a-t-il été consulté ? Votre domaine a été sélectionné au hasard dans le cadre d’un échantillon de recherche scientifique à grande échelle. Nos ensembles de données proviennent soit des domaines de premier niveau nationaux (ccTLD), soit de la liste TRANCO des sites web mondiaux les mieux classés. Cet échantillonnage aléatoire nous permet d’aider les chercheurs, les ONG et les gouvernements à mieux comprendre les caractéristiques complexes du multilinguisme et de la diversité linguistique sur le Web, ce qui est au cœur de notre mission en tant qu’organisation à but non lucratif.

Contactez-nous us Si vous avez des questions, des préoccupations ou si vous souhaitez exclure votre domaine des prochains cycles de recherche, veuillez nous contacter à l’adresse contact@obdilci.org

Les projets d’OBDILCI

Indicateurs de la présence des langues et du multilinguisme dans l’Internet
Les langues de France dans l’Internet
Le français dans l’Internet
Le portugais dans l’Internet
L’espagnol dans l’Internet
Rapports sur le multilinguisme de la Toile
Cours
IA et multilinguisme
gTLDs linguistiques
DILINET
Projets pré-historiques
Mort numérique des langues

Voir le projet principal

Voir les autres projets