OBDILCI

PROYECTO PRINCIPAL 2: MECILDI

Nuestra misión principal es elaborar indicadores sobre la presencia de lenguas y el multilingüismo en la Internet.

El primer proyecto principal, iniciado en 2017 y que alcanzó su madurez en 2022, creó un modelo capaz de generar indicadores para 362 idiomas. Este modelo se actualiza al menos una vez al año.

El segundo proyecto principal (MECILDI), iniciado en 2025, consiste en proporcionar un programa capaz de medir la presencia lingüística y los indicadores de multilingüismo en cualquier conjunto de sitios web seleccionado. Este programa permite evaluar los resultados del modelo y abrir nuevas líneas de investigación mediante su aplicación en diferentes conjuntos, por ejemplo, centrándose en ccTLD específicos o en la lista TRANCO de los sitios web más visitados con más de un millón de visitas.

A diferencia de la mayoría de los programas comparables existentes (como W3Techs), MECILDI proporcionará el proceso adecuado para tener en cuenta el hecho de que un sitio web puede contener más de un idioma, eliminando así este enorme sesgo de los otros métodos documentados en esta referencia revisada por pares.

Esta sección se centra en MECILDI. Si te interesa el MODELO, pasa a PROYECTO PRINCIPAL 1: MODELO.

MECILDI: RESUMEN DEL PROYECTO

Los datos obtenidos del modelo OBDILCI son de interés general en lo que respecta a las lenguas en la Internet, ya que el método no permite realizar un análisis específico de un subconjunto concreto, como un país específico o un grupo de países.

Además, las investigaciones históricas realizadas para desarrollar indicadores de diversidad lingüística han aportado pruebas científicas documentadas que contradicen los métodos propuestos por las empresas de marketing, los cuales carecen del rigor científico necesario y cuyo marcado sesgo a favor del inglés ha alimentado, y sigue alimentando, una desinformación crónica sobre el espacio que ocupa el inglés en la web. Los sesgos más significativos de estas fuentes se derivan de su incapacidad para tener en cuenta la realidad del multilingüismo en los sitios web (véase este artículo) y, al mismo tiempo, ocultan la realidad del fuerte multilingüismo de la web, que está creciendo rápidamente (véase esta sección) gracias a las contribuciones de las herramientas de inteligencia artificial.

Estas circunstancias han llevado a OBDILCI a adoptar el método tradicional utilizado por fuentes influyentes pero sesgadas: la detección algorítmica de lenguas directamente sobre una muestra de sitios web que se supone representativa de toda la Web. Sin embargo, a diferencia de estos métodos superficiales, MECILDI aportará el rigor necesario al análisis del multilingüismo. Esta nueva y ambiciosa herramienta permitirá además a OBDILCI ampliar su ámbito de estudio mediante el análisis específico de segmentos concretos de la Internet, definidos según criterios geográficos o temáticos.

El programa MECILDI será capaz de analizar una amplia variedad de sitios web, aplicando a cada uno de ellos un algoritmo de detección de lengua—seleccionado por su fiabilidad y cobertura—. Esta herramienta, combinada con una amplia gama de técnicas de identificación, permitiría extraer la distribución lingüística del público objetivo en términos porcentuales, así como otros indicadores relacionados con el multilingüismo. Tener en cuenta la naturaleza multilingüe de una proporción significativa de sitios web supone un complejo reto técnico que constituye el objetivo principal de este proyecto.

En un primer momento, MECILDI podrá arrojar luz sobre la prevalencia real del inglés en la web utilizando la misma técnica que W3Techs, pero sin el sesgo significativo inherente a esos datos. Posteriormente, MECILDI proporcionará resultados originales y específicos capaces de orientar, sobre una base objetiva, las estrategias digitales y las políticas públicas en materia de lenguas y multilingüismo en el ciberespacio, comenzando por los dominios lingüísticos de las lenguas de Francia.

El proyecto cuenta actualmente con el apoyo de la DGLFLF. Este apoyo ha permitido desarrollar una versión inicial más sencilla que se centra en la técnica más habitual para los sitios web multilingües (el atributo hreflang) y se basa en la extrapolación de datos. Esta versión se encuentra actualmente en fase de pruebas y debería arrojar los primeros resultados en las próximas semanas. Se necesita un mayor apoyo para desarrollar la versión completa, capaz de identificar todas las técnicas multilingües en los sitios web y extraer su distribución lingüística, lo que supone un importante reto técnico.

En cualquier caso, el método y sus resultados se detallarán en un artículo publicado en una revista científica revisada por pares. Es muy probable que los resultados confirmen definitivamente las conclusiones de OBDILCI, que estiman que el porcentaje de páginas web en inglés a nivel mundial se sitúa entre el 20 % y el 27 % (véase el estudio presentado en la reunión de la UNESCO/LT4ALL en 2025).

ABRIL DE 2026: LA VERSIÓN 1 DE MECILDI YA ES OPERACIONAL

Se ha establecido una serie de pruebas con el fin, por un lado, de verificar y aprobar el método y el programa y, por otro, de recabar datos relevantes sobre el uso de los sitios web más visitados —un millón en total— para estimar la proporción de idiomas en toda la web.

  • SERIE 1: 4 de mayo de 2026, aplicada a la serie TRANCO de noviembre de 2025
  • RUN 1.1: 5 de mayo de 2026; igual que la anterior, pero con la corrección de un error en el porcentaje de sitios web que cuentan con una versión en inglés (57,9 %). Porcentaje de páginas web en inglés = 22,1 %; índice de multilingüismo = 3; porcentaje de sitios web multilingües = 33,8 %; número medio de idiomas por sitio web multilingüe = 7; porcentaje de sitios que utilizan Google Translate integrado = 1,2 %
  • ANÁLISIS DE SENSIBILIDAD DE FACTORES: 8 de mayo de 2026. El principal sesgo del método es el factor de extrapolación utilizado para proyectar los resultados completos. a) Un análisis heurístico confirma que la elección del 40 % como base es correcta. b) La simulación de variaciones de este valor en un amplio rango confirma que el porcentaje del inglés se mantiene dentro del intervalo del 20 % al 27 %. El impacto de otros factores en los resultados es marginal.
  • La ejecución 2: 11/4/2026, aplicada a la serie TRANCO del 4 de abril de 2026, confirma y avala los resultados principales. No se observan grandes diferencias en los indicadores principales ni en las lenguas principales (a menudo dentro del intervalo de confianza). La mayoría de las diferencias se produjeron, como era de esperar, en las tasas de error y en los idiomas menos dominantes. La tendencia del inglés es ligeramente a la baja (56%/21,8 % frente a 58%/22,1 %).
  • RUN 3: 13 de mayo de 2026, se lleva a cabo una última prueba para confirmar el enfoque estadístico. Se somete a prueba una nueva serie generada aleatoriamente de 100 x 1000 sitios. El 97,8 % de los nuevos resultados se mantiene dentro del intervalo de confianza de los primeros resultados y, en los 5 resultados de los 240 que muestran una diferencia superior, esta sigue siendo marginal (0,05 %). Esta última prueba confirma el enfoque estadístico y concluye la campaña de medición.
% OF WEBPAGES INVALOR EN TRANCOCONFIDENCE
INTERVAL 99%
(+-)
English21,77%0,79%
German6,93%0,24%
French6,38%0,24%
Spanish6,36%0,22%
Italian4,13%0,16%
Portuguese3,86%0,15%
Russian3,86%0,16%
Dutch3,17%0,13%
Japanese2,93%0,11%
Chinese2,77%0,13%
Polish2,57%0,10%
Indonesian1,79%0,10%
Turkish1,76%0,10%
Swedish1,74%0,11%
Korean1,62%0,09%
Arabic1,60%0,10%
Czech1,52%0,09%
Danish1,41%0,10%
Finnish1,28%0,10%
Romanian1,26%0,08%
Ukrainian1,24%0,10%
Hungarian1,23%0,08%
Modern Greek1,10%0,08%
Vietnamese1,09%0,07%

Esta tabla recoge los idiomas de los millones de sitios web más visitados según la serie TRANCO. Esta serie se basa en fuentes (Majestic, QuantCast, Cisco Umbrella) que presentan un marcado sesgo a favor de los principales países occidentales, lo que favorece a las principales lenguas europeas (inglés, alemán, francés, español…). Esas cifras no reflejan la realidad de la proporción de idiomas en toda la web, donde los porcentajes de idiomas no europeos, en particular el chino, serían considerablemente más altos.

En cualquier caso, las diferencias entre esas cifras y las de W3Techs (calculadas en la misma serie) se deben a que W3Techs no tiene en cuenta el multilingüismo de los sitios web y contabiliza un único idioma por sitio, mientras que nosotros contabilizamos todas las versiones lingüísticas.

Los datos relativos a las más de 200 lenguas incluidas en el estudio TRANCO están disponibles en acceso abierto (CC-BY-SA 4.0) a continuación.

A continuación se incluyen también algunas cifras sobre la situación del multilingüismo en la web.

El estudio sobre el multilinguismo de unos gTLDs de Francia se ha concluido. Consulte los resultados abajo.

Por último, se ofrece información técnica dirigida a los administradores de sitios web para que puedan comprobar cómo el robot MECILDI procesa los sitios web rastreados.

Proyectos OBDILCI

  • Indicadores de la presencia de lenguas en la Internet
  • Las lenguas de Francia en la Internet
  • El francés en la Internet
  • El portugués en la Internet
  • El español en la Internet
  • IA y multilinguismo
  • gTLDs lingüísticos
  • Proyectos pre-históricos
  • Muerte digital de las lenguas