MECILDI

PRIMERAS EDICIONES DE MECILDI 4/2026

PRIMERAS EDICIONES DE MECILDI 4/2026

Abril de 2026: Este es un momento histórico para todos aquellos interesados en las lenguas en Internet. Por primera vez, se ha diseñado un programa de detección de idiomas teniendo debidamente en cuenta el multilingüismo en la web, corrigiendo el marcado sesgo de los métodos anteriores, que favorecían al inglés.

Aquí están los primeros resultados de la versión 1 de MECILDI, aplicada al muestreo Tranco de un millón de sitios web más visitados… lo que permite, posteriormente, corregir la desinformación más habitual sobre la proporción de contenidos en inglés.

¿Sabes qué? Todas nuestras principales predicciones documentadas se han confirmado:

  • El 22 % es la cifra correcta del porcentaje de páginas web en inglés en la lista de Tranco (y no el 50 % que se indica aquí), una cifra prevista por nuestro modelo.
  • Se confirma la ecuación «sin sesgo» de las cifras de W3Techs propuesta en nuestro artículo. Cifra corregida = cifra sesgada / tasa de multilingüismo (22 % ~= 56 %/3)
  • Se confirma el análisis de todos los métodos existentes, presentado en UNESCO/LT4ALL, que prevé una cifra para el inglés de entre el 20 % y el 27 %.
  • Las cifras sobre el multilingüismo son ligeramente superiores a lo previsto (ver resultados).

Esperemos que esto ponga fin a la desinformación sobre el tema del inglés como lengua franca de Internet.

Una de las conclusiones secundarias de este primer resultado es que hay que moderar el entusiasmo por disponer de una herramienta nueva tan potente. Resulta evidente que utilizar las cifras de los millones de sitios web más visitados para extrapolar a toda la web no tiene sentido. La selección de los sitios web más visitados, a pesar del genuino esfuerzo de los autores de Tranco por reducir los posibles sesgos técnicos de las fuentes primarias (Majestic, Cisco Umbrella, Quantcast), parece estar viciada desde el principio en cuanto a sesgos geográficos y, por tanto, lingüísticos. Esas fuentes se centran predominantemente en sitios web de países occidentales, lo que invalida cualquier extrapolación al conjunto de la web, ya que esas cifras están muy sesgadas en contra de la mayoría de las lenguas no europeas. ¿Por qué el chino representa menos del 3 % de los contenidos a pesar de tener el mayor porcentaje de hablantes conectados (el 17,6 % de los internautas habla chino, frente al 15,5 % que habla inglés)? Probablemente porque los sitios web más visitados seleccionados en Tranco no son los que visitan los chinos, sino los hablantes de chino de la diáspora… Intentaremos analizar este punto más a fondo, pero en esta fase consideramos que el modelo de OBDILCI es mucho más fiable que la extrapolación de esos resultados a toda la Web.

Notes :

  • La versión 1 de MECILDI, financiada por DGLFLF, solo calcula el método más estándar para el multilingüismo y extrapola cifras completas basadas en una hipótesis de prevalencia.
  • La versión 2, financiada por OIF, estará terminada a finales de 2026 y procesará todos los métodos posibles (se trata de un tema complejo).
  • Los resultados obtenidos para el millón de sitios web más visitados no deben extrapolarse tal cual a toda la web; este enfoque favorece claramente a las lenguas europeas frente al resto de idiomas. En cuanto al inglés, tendrá menos prevalencia en toda la web en comparación con los sitios más visitados, pero, al mismo tiempo, la tasa de multilingüismo será bastante menor. Dado que ambos efectos se contradicen entre sí, es imposible ofrecer una cifra en esta fase y nos atenemos a las conclusiones anteriores: el porcentaje de páginas web en inglés en toda la web se sitúa entre el 20 % y el 27 %.

Que viene luego?

  • Documentaremos con todo detalle el método, así como los resultados y las consideraciones, en un artículo revisado por pares para una revista de gran prestigio.
  • Aplicaremos MECILDI a un conjunto de siete gTLD de lenguas de Francia y elaboraremos informes sobre la distribución lingüística y los indicadores de multilingüismo de dichos dominios.
  • Seguiremos adelante con el diseño y el desarrollo de la versión 2 y, posteriormente, volveremos a aplicar la versión 2 a Tranco, así como a un conjunto de 10 ccTLD de los países miembros de la Francofonía del Sur.
  • Con el tiempo surgirán más aplicaciones de MECILDI para comprender mejor la estructura lingüística y el multilingüismo de Internet, así como su evolución a lo largo del tiempo.

 

Proyectos OBDILCI

  • Indicadores de la presencia de lenguas en la Internet
  • Las lenguas de Francia en la Internet
  • El francés en la Internet
  • El portugués en la Internet
  • El español en la Internet
  • IA y multilinguismo
  • gTLDs lingüísticos
  • Proyectos pre-históricos
  • Muerte digital de las lenguas