OBDILCI

PROJET PRINCIPAL 2 : MECILDI

Notre mission principale consiste à produire des indicateurs de la présence des langues et du multilinguisme dans l’Internet.

Le premier projet majeur, lancé en 2017 et arrivé à maturité en 2022, a permis de créer un modèle capable de produire des indicateurs pour 362 langues. Ce modèle est mis à jour au moins une fois par an.

Le deuxième projet principal (MECILDI), lancé en 2025, vise à fournir un programme capable de mesurer les indicateurs de présence linguistique et de multilinguisme dans n’importe quelle série ciblée de sites web. Ce programme permet d’évaluer les résultats du modèle et d’ouvrir de nouvelles pistes de recherche par application à différentes séries, par exemple en ciblant des ccTLD spécifiques ou la liste TRANCO du million de sites web les plus visités. Contrairement à la plupart des programmes existants comparables (tels que W3Techs), MECILDI mettra en place une procédure appropriée pour prendre en compte le fait qu’un site web peut contenir plusieurs langues, éliminant ainsi cet énorme biais des autres méthodes documentées dans cette référence évaluée par des pairs.

Cette section est consacrée à MECILDI. Si vous êtes intéressé par le modèle, rendez-vous sur PROJET PRINCIPAL 1 : MODÈLE.

MECILDI : Resumé du projet

Les données obtenues par le modèle d’OBDILCI sont de portée générale en ce qui concerne les langues dans l’Internet, car la méthode ne permet pas une analyse ciblée sur un sous-ensemble particulier, comme, par exemple, un pays spécifique ou un groupe de pays.

Par ailleurs, les travaux historiques réalisés pour la création d’indicateurs sur la diversité linguistique ont permis d’apporter un démenti scientifique documenté sur des méthodes proposées par des entreprise de marketing, sans la rigueur scientifique requise, et dont les forts biais en faveur de l’anglais ont nourri et continuent de nourrir une mésinformation chronique sur la place de l’anglais dans l’Internet. Les biais les plus importants de ces sources résultent de la non prise en compte de la réalité du multilinguisme des sites Web (voir cet article) et occultent par la même occasion la réalité d’un fort multilinguisme de la Toile, en croissance accélérée (voir cette section) grâce aux contributions des outils de l’intelligence artificielle.

Ces circonstances ont conduit OBDILCI à reprendre la méthode traditionnelle utilisée par les sources influentes mais biaisées, la détection algorithmique des langues directement sur un échantillon de sites web supposé être représentatif de l’ensemble de la Toile. Cependant, à différence de ces méthodes superficielles, MECILDI va apporter le sérieux nécessaire à la prise en compte du multilinguisme. Ce nouvel outil ambitieux permettra par ailleurs à OBDILCI d’élargir son champ d’étude par l’analyse ciblée vers des segments spécifiques de l’Internet, définis selon des critères géographiques ou thématiques.

Le programme MECILDI sera capable d’explorer une large série de sites web, en appliquant à chacun d’entre eux un algorithme de détection des langues, sélectionné pour sa fiabilité et sa couverture. Cet outil, associé à une gamme étendue de techniques d’identification, permettrait d‘extraire la répartition linguistique en pourcentage de la cible visée, ainsi que d’autres indicateurs relatifs au multilinguisme. La prise en compte de la réalité multilingue d’une proportion non négligeable de sites représente un défi technique complexe qui est l’objet de ce projet.

MECILDI pourra dans un premier temps apporter de la clarté sur la réalité de la présence de l´anglais dans la Toile en utilisant la même technique que W3Techs, mais sans le biais majeur que porte ces données. En séquence, MECILDI apportera des résultats ciblés originaux, susceptibles d’orienter sur des bases factuelles, les stratégies numériques et les politiques publiques pour les langues et le multilinguisme dans le cyberespace, en commençant par les domaines linguistiques des langues de France.

Le projet est pour le moment soutenu par la DGLFLF. Ce soutien a permis le développement d’une première version plus simple car se concentrant sur la technique la plus courante pour le multilinguisme des sites web (l’instruction Hreflang) et basé sur l’extrapolation des données. Cette version est en cours de test et devrait apporter les premiers résultats dans les semaines à venir. Un appui plus important est nécessaire pour obtenir la version complète capable d’identifier toutes les techniques de multilinguisme dans les sites web et d’en extraire la répartition linguistique, un gros défi technique.

Dans tous les cas la méthode et ses résultats seront détaillés dans un article publié dans une revue scientifique à comité de lecture. Les résultats permettront en toute probabilité de confirmer définitivement les travaux d’OBDILCI qui estiment que le pourcentage de pages web en anglais à l’échelle globale sont à l’intérieur de la fenêtre 20%-27% (voir l’étude présentée à la réunion UNESCO/LT4ALL en 2025).

AVRIL 2026 : LA VERSION 1 DE MECILDI EST OPERATIONNELLE.

Une série de tests a été mise en place dans le but, d’une part, de vérifier et de valider la méthode et le programme, et, d’autre part, de fournir des données pertinentes sur l’utilisation du million de sites web les plus visités afin d’estimer la répartition linguistique sur l’ensemble du Web.

  • RUN 1 : 4 mai 2026, appliquée à la série TRANCO de novembre 2025
  • RUN 1.1 : 5 mai 2026 – identique, avec correction d’une erreur concernant le pourcentage de sites web disposant d’une version en anglais (57,9 %). Pourcentage de pages web en anglais = 22,1 % ; taux de multilinguisme = 3 ; pourcentage de sites web multilingues = 33,8 % ; nombre moyen de langues par site web multilingue = 7 ; pourcentage de sites utilisant Google Translate intégré = 1,2 %
  • ANALYSE DE SENSIBILITÉ AUX FACTEURS : 8 mai 2026. Le principal biais de la méthode réside dans le facteur d’extrapolation utilisé pour projeter l’ensemble des résultats. a) Une analyse heuristique confirme que le choix de 40 % constitue une base correcte. b) La modélisation des variations de cette valeur sur une large fourchette confirme que le pourcentage pour l’anglais reste compris entre 20 % et 27 %. L’impact des autres facteurs sur les résultats est marginal.
  • RUN 2 : 11 mai 2026, appliqué à la série TRANCO du 4 avril 2026, confirme et valide les principaux résultats. Peu de différences sont observées pour les principaux indicateurs et les langues principales (souvent dans l’intervalle de confiance). La plupart des différences concernent logiquement les taux d’erreur et les langues les moins dominantes. La tendance pour l’anglais est légèrement à la baisse (56%/21,8 % contre 58%/22,1 %).
  • RUN 3 : 13 mai 2026, un dernier test est réalisé pour confirmer l’approche statistique. Une nouvelle série générée au hasard de 100 fois mille sites est soumise. 97,8% des nouveaux résultats restent dans l’intervalle de confiance des premiers résultats et pour les 5 résultats sur 240 qui montrent une différence supérieure celle-ci reste marginale (0,05%). Ce dernier teste confirme l’approche statistique et conclut la campagne de mesure.
% DES PAGES WEB EN% DES PAGES WEB DANS LA SÉRIE TRANCOINTERVALLE DE CONFIANCE À 99% (+-)
Anglais21,77%0,79%
Allemand6,93%0,24%
Français6,38%0,24%
Espagnol6,36%0,22%
Italien4,13%0,16%
Portugais3,86%0,15%
Russe3,86%0,16%
Néerlandais3,17%0,13%
Japonais2,93%0,11%
Chinois2,77%0,13%
Polonais2,57%0,10%
Indonésien1,79%0,10%
Turc1,76%0,10%
Suédois1,74%0,11%
Coréen1,62%0,09%
Arabe1,60%0,10%
Tchèque1,52%0,09%
Danois1,41%0,10%
Finlandais1,28%0,10%
Roumain1,26%0,08%
Ukrainien1,24%0,10%
Hongrois1,23%0,08%
Grec1,10%0,08%
Vietnamien1,09%0,07%

Ce tableau présente la répartition linguistique des millions de sites web les plus visités, d’après la série TRANCO. Cette série s’appuie sur des sources (Majestic, QuantCast, Cisco Umbrella) qui sont fortement biaisées en faveur des principaux pays occidentaux, ce qui favorise les principales langues européennes (anglais, allemand, français, espagnol…). Ces chiffres ne reflètent pas la réalité de la répartition linguistique sur l’ensemble du Web, où les pourcentages des langues non européennes, en particulier le chinois, seraient considérablement plus élevés.

Quoi qu’il en soit, les écarts entre ces chiffres et ceux de W3Techs (calculés selon la même méthode) s’expliquent par le fait que W3Techs ne tient pas compte du multilinguisme des sites web et ne comptabilise donc qu’une seule langue par site, alors que nous comptabilisons toutes les versions linguistiques.

Les données relatives aux plus de 200 langues incluses dans l’étude sont librement accessibles (CC-BY-SA 4.0) ci-dessous.

Voici également quelques chiffres sur l’état du multilinguisme du Web.

L’étude sur le multilinguisme de certains gTLDs de la France a e´té conclue et les résultats sont accessibles ci-dessous.

Pour finir, des informations techniques destinées aux webmasters afin qu’ils puissent vérifier comment le robot MECILDI traite les sites Web explorés.

Les projets d’OBDILCI

  • Indicateurs de la présence des langues et du multilinguisme dans l’Internet
  • Les langues de France dans l’Internet
  • Le français dans l’Internet
  • Le portugais dans l’Internet
  • L’espagnol dans l’Internet
  • Rapports sur le multilinguisme de la Toile
  • Cours
  • IA et multilinguisme
  • gTLDs linguistiques
  • DILINET
  • Projets pré-historiques
  • Mort numérique des langues