PROJET PRINCIPAL 2 : MECILDI

OBDILCI

PROJET PRINCIPAL 2 : MECILDI

PROJET PRINCIPAL 2 : MECILDI

Notre mission principale consiste à produire des indicateurs de la présence des langues et du multilinguisme dans l’Internet.

Le premier projet majeur, lancé en 2017 et arrivé à maturité en 2022, a permis de créer un modèle capable de produire des indicateurs pour 362 langues. Ce modèle est mis à jour au moins une fois par an.

Le deuxième projet principal (MECILDI), lancé en 2025, vise à fournir une plateforme informatique capable de mesurer les indicateurs de présence linguistique et de multilinguisme dans n’importe quelle série ciblée de sites web. Ce programme permet d’évaluer les résultats du modèle et d’ouvrir de nouvelles pistes de recherche par application à différentes séries, par exemple en ciblant des gTLDs ou des ccTLDs spécifiques ou la liste TRANCO du million de sites web les plus visités. Contrairement à la plupart des méthodes existantes comparables (telle que W3Techs), MECILDI a mis en place une procédure appropriée pour prendre en compte le fait qu’un site web peut offrir plusieurs versions linguistiques, éliminant ainsi cet énorme biais des autres méthodes, documenté dans cette référence évaluée par des pairs (voir sa version française).

Cette section est consacrée à MECILDI. Si vous êtes intéressé par le modèle, rendez-vous sur PROJET PRINCIPAL 1 : MODÈLE.

MECILDI : Resumé du projet

Les données obtenues par le modèle d’OBDILCI sont de portée générale en ce qui concerne les langues dans l’Internet, car la méthode ne permet pas une analyse ciblée sur un sous-ensemble particulier, comme, par exemple, un pays spécifique ou un groupe de pays.

Par ailleurs, les travaux historiques réalisés pour la création d’indicateurs sur la diversité linguistique ont permis d’apporter un démenti scientifique documenté sur des méthodes proposées par des entreprise de marketing, sans la rigueur scientifique requise, et dont les forts biais en faveur de l’anglais ont nourri et continuent de nourrir une mésinformation chronique sur la place de l’anglais dans l’Internet. Les biais les plus importants de ces sources résultent de la non prise en compte de la réalité du multilinguisme des sites Web (voir cet article) et occultent par la même occasion la réalité d’un fort multilinguisme de la Toile, en croissance accélérée (voir ces rapports sur le multlinguisme du Web) grâce aux contributions des outils de l’intelligence artificielle.

Ces circonstances ont conduit OBDILCI à reprendre la méthode traditionnelle utilisée par les sources influentes mais souvent biaisées, la détection algorithmique des langues directement sur un échantillon de sites web supposé être représentatif de l’ensemble de la Toile. Cependant, à différence de ces méthodes MECILDI va apporter le sérieux nécessaire à la prise en compte du multilinguisme. Ce nouvel outil ambitieux permettra par ailleurs à OBDILCI d’élargir son champ d’étude par l’analyse ciblée vers des segments spécifiques de l’Internet, définis selon des critères géographiques ou thématiques.

La plateforme MECILDI est capable d’explorer une large série de sites web, en appliquant à chacun d’entre eux un algorithme de détection des langues, sélectionné pour sa fiabilité et sa couverture. Cet outil, associé à une gamme étendue de techniques d’identification, permet d‘extraire de la cible visée, la répartition linguistique en pourcentage, ainsi que d’autres indicateurs relatifs au multilinguisme. La prise en compte de la réalité multilingue d’une proportion non négligeable de sites représente un défi technique complexe qui est l’objet de ce projet.

MECILDI peut, dans un premier temps, apporter de la clarté sur la réalité de la présence de l´anglais dans la Toile en utilisant la même technique que W3Techs, mais sans le biais majeur que porte ces données. En séquence, MECILDI apportera des résultats ciblés originaux, susceptibles d’orienter sur des bases factuelles, les stratégies numériques et les politiques publiques pour les langues et le multilinguisme dans le cyberespace, en commençant par les domaines linguistiques des langues de France.

Le projet est pour soutenu par la DGLFLF et l’OIF pour sa première version. Cette première version plus simple se concentre sur la technique la plus courante pour le multilinguisme des sites web (l’instruction Hreflang) et complémente ses résultats par extrapolation. Cette version 1 a abouti en juin 2026 et a produit des résultats pour la liste TRANCO du million de sites les plus visités et pour une série de gTLDS associés aux langues de France. La version 2, plus ambitieuse en terme de couverture exhaustive de toutes les méthodes de création de sites multilingues, est soutenue par l’OIF et la DGLFLF. Elle va apporter plus de précisions sur les indicateurs produits et étendre son application à une dizaine de pays de la Francophonie.

La version 1 a fait l’objet d’une première description détaillée de sa méthode, pour l’instant en mode preprint et prochainement dans une revue scientifique. Les résultats de la version 1 ont permis de confirmer définitivement les travaux précédents d’OBDILCI qui estimaient que le pourcentage de pages web en anglais dans l’ensemble du WWW est à l’intérieur de la fenêtre 19%-26% (voir l’étude présentée à la réunion UNESCO/LT4ALL en 2025) ainsi que les premières études sur le multilinguisme du www réalisées avec la base de DataProvider.com (voir cette section).

AVRIL 2026 : LA VERSION 1 DE MECILDI EST OPERATIONNELLE.

Une série de tests a été mise en place dans le but, d’une part, de vérifier et de valider la méthode et la plateforme, et, d’autre part, de fournir des données pertinentes sur l’utilisation du million de sites web les plus visités afin d’estimer la répartition linguistique sur l’ensemble du Web.

RUN 1 : 4 mai 2026, appliquée à la série TRANCO de novembre 2025
RUN 1.1 : 5 mai 2026 – identique, avec correction d’une erreur concernant le pourcentage de sites web disposant d’une version en anglais (57,9 %). Pourcentage de pages web en anglais = 22,1 % ; taux de multilinguisme = 3 ; pourcentage de sites web multilingues = 33,8 % ; nombre moyen de langues par site web multilingue = 7 ; pourcentage de sites utilisant Google Translate intégré = 1,2 %
ANALYSE DE SENSIBILITÉ AUX FACTEURS : 8 mai 2026. Le principal biais de la méthode réside dans le facteur d’extrapolation utilisé pour projeter l’ensemble des résultats. a) Une analyse heuristique confirme que le choix de 40 % constitue une base correcte. b) La modélisation des variations de cette valeur sur une large fourchette confirme que le pourcentage pour l’anglais reste compris entre 20 % et 27 %. L’impact des autres facteurs sur les résultats est marginal.
RUN 2 : 11 mai 2026, appliqué à la série TRANCO du 4 avril 2026, confirme et valide les principaux résultats. Peu de différences sont observées pour les principaux indicateurs et les langues principales (souvent dans l’intervalle de confiance). La plupart des différences concernent logiquement les taux d’erreur et les langues les moins dominantes. La tendance pour l’anglais est légèrement à la baisse (56%/21,8 % contre 58%/22,1 %).
RUN 3 : 13 mai 2026, un dernier test est réalisé pour confirmer l’approche statistique. Une nouvelle série générée au hasard de 100 fois mille sites est soumise. 97,8% des nouveaux résultats restent dans l’intervalle de confiance des premiers résultats et pour les 5 résultats sur 240 qui montrent une différence supérieure celle-ci reste marginale (0,05%). Ce dernier teste confirme l’approche statistique et conclut la campagne de mesure.
RUN8 : juin 2026 – Nous en sommes à la version 1.7 de MECILDI, améliorant à chaque mise à jour le processus de gestion des erreurs, par exemple grâce à une meilleure détection des sites en construction, tout en évitant les faux négatifs.
RUN10 : juin 2026 – La version 1.8 marque la fin de la phase 1 du projet MECILDI. Cette dernière version ajoute, pour chaque langue, le pourcentage de sites web disposant d’une version linguistique. Le fichier de résultats accessible ci-dessous rassemble désormais, outre les résultats finaux, les résultats de toutes les études intermédiaires et complémentaires mentionnées ci-dessous :

> Résultats de la version 1.7 (Run8) sur Tranco, recueillis le 12 juin 2026
> Résultats de la version V1 (première exécution) sur Tranco, recueillis en novembre 2025, avec intervalle de confiance pour chaque champ et comparaisons avec W3Techs et le modèle OBDILCI
> Étude de sensibilité pour le facteur alpha (extrapolation) et l’en-tête Accept-Language.
> V1 (Run3) sur les données Tranco collectées en avril 2026, comparaison avec Run1
> V1 (Run4) : mêmes données Tranco d’avril 2026 mais échantillon aléatoire différent, contrôle de la cohérence statistique
> Étude des tendances à l’aide de la fonctionnalité de Tranco permettant d’accéder à d’anciennes listes, remontant jusqu’en 2019
> Comparaison entre le modèle OBDILCI pour l’ensemble des résultats du Web et les résultats de Tranco pour le million de sites Web les plus visités
> Résultat obtenu en utilisant uniquement les données Crux à la place de celles de Tranco, avec des paramètres définis pour exclure les sous-domaines et les doublons de sites appartenant à une même organisation (run9)
> Focus sur les sites comportant une balise Hreflang= et collecte de leurs données spécifiques

RÉSULTATS DU RUN3 (V1.3 Avril 2026)

Ces résultats sont présentés afin de donner une idée de l’ordre de grandeur de l’intervalle de confiance.

% DES PAGES WEB EN	% DES PAGES WEB DANS LA SÉRIE TRANCO	INTERVALLE DE CONFIANCE À 99% (+-)
Anglais	21,77%	0,79%
Allemand	6,93%	0,24%
Français	6,38%	0,24%
Espagnol	6,36%	0,22%
Italien	4,13%	0,16%
Portugais	3,86%	0,15%
Russe	3,86%	0,16%

PRINCIPAUX RÉSULTATS DU RUN 10 FINAL V1.8 TRANCO, juin 2026

Indicateurs de multilinguisme

RUN 10	MOYENNE
Sites (anglais)	67.52%	Pourcetage de sites ayant une version en anglais
Pages (anglais)	20.13%	Pourcentage de pages web en anglais
MultiR	3.41	Taux de multilinguisme
%Multi	37.32%	% de sites multilingues
AvgL	7.45	Nombre moyen de langues par site multilingue
ERR-TOT	46.92%	Total sites non traités
Err-DNS	12.70%	Domaines inaccessibles
Err-BLK	16.33%	Sites valides mais interdisant le traitement
Err-CFG	0.94%	Sites stationné ou en construction
Err-HTTP	6.99%	Sites en erreur
Err-LANG	9.97%	Échec de la détection de la langue
MonoL	62.68%	Sites monolingues
GooT	1.05%	Sites utilisant GoogleTranslate
HDEF	2.71	Facteur heuristique dérivé de d’extrapolation.
Lang=	69.09%	Lang= présent
HrefLang=	14.93%	HrefLang= présent
IDN	0.16%	Noms de domaine internationalisés

Indicateurs linguistiques

LANGUES	%PAGES	%SITES
TOTAL	100.00%	341.33%
English	20.13%	67.52%
German	6.51%	21.99%
French	6.13%	20.73%
Spanish	6.09%	20.55%
Italien	4.10%	13.92%
Portugais	3.87%	13.15%
Russe	3.58%	12.11%
Néerlandais	3.21%	10.98%
Japonais	2.98%	10.12%
Chinois	2.92%	9.90%
Polonais	2.63%	8.97%
Turc	1.81%	6.19%
Suédois	1.79%	6.14%
Arabe	1.78%	6.12%
Coréen	1.78%	6.10%
Indonésien	1.68%	5.75%
Tchèque	1.56%	5.34%
Danois	1.40%	4.82%
Finnois	1.33%	4.60%
Roumain	1.30%	4.48%
Hongrois	1.27%	4.38%
Ukrainien	1.25%	4.28%
Vietnamien	1.23%	4.24%
Grec	1.22%	4.20%
Thai	1.10%	3.82%
OTHERL (*)	1.04%	3.67%
Slovaque	1.02%	3.50%
Norwegian	0.90%	3.12%
Hindi	0.88%	3.04%
Bulgare	0.80%	2.77%
Slovène	0.74%	2.57%
Croate	0.72%	2.50%
Malais	0.63%	2.18%
Estonien	0.62%	2.17%
Lithuanien	0.61%	2.11%
Latvian	0.60%	2.09%
Hébreu	0.59%	2.06%
Bengali	0.51%	1.78%
Serbe	0.49%	1.71%
Perse	0.36%	1.28%
NON-ID (**)	0.32%	1.07%
Catalan	0.32%	1.11%
Tagalog	0.30%	1.05%
Ourdou	0.29%	1.05%
Albanais	0.28%	1.01%

(*) OTHERL : Langues qui ne figurent pas dans la liste des langues détectables par Tomedes, bien qu’elles soient spécifiées dans l’attribut hreflang

(**) NON-ID : Langues non détectées par Tomedes.

Ce tableau présente les langues présentes sur les millions de sites web les plus visités, d’après les séries TRANCO. Cette série agrège les classements issus des listes fournies par Crux, Farsight, Majestic, Radar et Umbrella, qui peuvent présenter un fort biais en faveur des principaux pays occidentaux, ce qui favorise les principales langues européennes (allemand, français, espagnol…).

Ces chiffres ne reflètent pas la réalité de la répartition linguistique sur l’ensemble du Web, où les pourcentages des langues non européennes, en particulier le chinois, seraient considérablement plus élevés.

Quoi qu’il en soit, les écarts entre ces chiffres et ceux de W3Techs (calculés sur le même échamtillon) s’expliquent par le fait que W3Techs ne tient pas compte du multilinguisme des sites web et ne comptabilise donc qu’une seule langue par site, alors que nous comptabilisons toutes les versions linguistiques.

Voir ci-dessous les résultats détaillés pour Tranco, pour les gTLDs de France et également quelques chiffres sur l’état du multilinguisme du Web. Toutes ces informations sont sous la licence CC-BY-SA 4.0.

Pour finir, des informations techniques destinées aux webmasters afin qu’ils puissent vérifier comment le robot MECILDI traite les sites Web explorés.

TÉLÉCHARGER LES RÉSULTATS POUR TRANCO (Excel)

VOIR LE MULTILINGUISME DE LA TOILE

VOIR RÉSULTATS POUR DES gTLDs DE FRANCE

MESSAGE POUR WEBMASTERS

LIRE LA PRÉPUBLICATION SUR MECILDI