MECILDI
PREMIÈRES APPLICATIONS MECILDI 4/2026

PREMIÈRES APPLICATIONS MECILDI 4/2026
C’est un moment historique pour toutes les personnes qui s’intéressent au thème de la proportion des langues dans l’Internet. Pour la première fois, un programme de détection des langues a été conçu en prenant en compte le multilinguisme des sites web, corrigeant ainsi le biais très important des méthodes précédentes en faveur de l’anglais.
Voici les résultats de MECILDI version 1, appliqué à l’échantillon Tranco du million de sites web les plus visités… et permettant de corriger la désinformation la plus tenace concernant la proportion de contenus en anglais.
Devinez quoi ? Toutes nos prédictions documentées sont confirmées :
- Le chiffre exact correspondant au pourcentage de pages web en anglais dans la liste Tranco est de 22 % (et non 50 % comme indiqué ici), un chiffre prévu par notre modèle.
- L’équation « sans biais » des chiffres de W3Techs proposée dans notre article est confirmée. Chiffre correct = chiffre biaisé / Taux de multilinguisme (22 % ~= 56% / 3)
- L’analyse de toutes les méthodes existantes, présentée lors de la conférence UNESCO/LT4ALL, qui prévoit un pourcentage compris entre 20 % et 27 % pour l’anglais, est confirmée.
- Les chiffres relatifs au multilinguisme sont légèrement supérieurs aux prévisions (voir les résultats).
Espérons que cela mettra fin à la désinformation sur le sujet concernant l’anglais, lingua franca de l’Internet.
L’une des conclusions secondaires de ce premier résultat est de tempérer l’enthousiasme suscité par la possession d’un nouvel outil aussi puissant. Il apparaît clairement que se baser sur les chiffres du million de sites web les plus visités pour extrapoler à l’ensemble du web est une aberration. La sélection des sites web les plus visités, malgré les efforts sincères des auteurs de Tranco pour réduire les biais techniques potentiels des sources primaires (Majestic, Cisco Umbrella, Quantcast), semble biaisé à la base en termes géographiques et donc linguistiques. Ces sources ciblent principalement des sites web de pays occidentaux, ce qui invalide toute extrapolation à l’ensemble du Web, car ces chiffres sont fortement biaisés à l’encontre de la plupart des langues non européennes. Pourquoi le chinois représente-t-il moins de 3 % des contenus alors qu’il compte le plus grand pourcentage de locuteurs connectés (17,6 % des internautes parlent chinois, contre 15,5 % qui parlent anglais) ? Probablement parce que les sites web les plus visités sélectionnés par Tranco ne sont pas ceux fréquentés par les chinois en Chine, mais par les locuteurs du chinois de la diaspora… Nous tenterons d’analyser ce point plus en détail, mais à ce stade, nous considérons que le modèle de l’OBDILCI est bien plus fiable que l’extrapolation de ces résultats à l’ensemble du Web.
Notes :
- La version 1 du MECILDI, financée par DGLFLF, ne prend en compte que la méthode la plus courante en matière de multilinguisme et extrapole des chiffres complets sur la base d’hypothèses de prévalence.
- La version 2, qui sera financée par l’OIF, sera achevée d’ici la fin de l’année 2026 et traitera toutes les méthodes possibles (il s’agit d’un sujet complexe).
- Les résultats obtenus pour le million de sites les plus visités ne doivent pas être extrapolés tels quels à l’ensemble du Web ; cette approche favorise fortement les langues européennes au détriment des autres langues. Quant à l’anglais, il sera moins répandu sur l’ensemble du Web par rapport aux sites les plus visités, mais, dans le même temps, le taux de multilinguisme sera nettement plus faible. Ces deux effets s’opposant, il est impossible de fournir un chiffre à ce stade et nous nous en tenons aux conclusions précédentes : le pourcentage de pages Web en anglais sur l’ensemble du Web se situe entre 20 % et 27 %.
Prochaines étapes?
- Nous présenterons en détail la méthode, ainsi que les résultats et les réflexions, dans un article soumis à un comité de lecture et publié dans une revue sérieuse.
- Nous appliquerons MECILDI à un ensemble de 7 gTLDs correspondant aux langues de France et produirons des rapports sur la répartition linguistique et les indicateurs de multilinguisme pour ces domaines.
- Nous allons poursuivre la conception et le développement de la version 2, puis appliquer cette version 2 à Tranco ainsi qu’à un ensemble de 10 ccTLD des pays membres de la Francophonie du Sud.
- D’autres applications de MECILDI verront le jour à terme afin de mieux comprendre la structure linguistique et le multilinguisme de l’Internet, ainsi que son évolution au fil du temps.


Les projets d’OBDILCI
- Indicateurs de la présence des langues et du multilinguisme dans l’Internet
- Les langues de France dans l’Internet
- Le français dans l’Internet
- Le portugais dans l’Internet
- L’espagnol dans l’Internet
- Rapports sur le multilinguisme de la Toile
- Cours
- IA et multilinguisme
- gTLDs linguistiques
- DILINET
- Projets pré-historiques
- Mort numérique des langues
