OBDILCI

PROYECTO PRINCIPAL 2: MECILDI

Nuestra misión principal es elaborar indicadores sobre la presencia de lenguas y el multilingüismo en la Internet.

El primer proyecto principal, iniciado en 2017 y que alcanzó su madurez en 2022, creó un modelo capaz de generar indicadores para 362 idiomas. Este modelo se actualiza al menos una vez al año.

El segundo proyecto principal (MECILDI), iniciado en 2025, consiste en proporcionar un programa capaz de medir la presencia lingüística y los indicadores de multilingüismo en cualquier conjunto de sitios web seleccionado. Este programa permite evaluar los resultados del modelo y abrir nuevas líneas de investigación mediante su aplicación en diferentes conjuntos, por ejemplo, centrándose en ccTLD específicos o en la lista TRANCO de los sitios web más visitados con más de un millón de visitas.

A diferencia de la mayoría de los programas comparables existentes (como W3Techs), MECILDI proporcionará el proceso adecuado para tener en cuenta el hecho de que un sitio web puede contener más de un idioma, eliminando así este enorme sesgo de los otros métodos documentados en esta referencia revisada por pares.

Esta sección se centra en MECILDI. Si te interesa el MODELO, pasa a PROYECTO PRINCIPAL 1: MODELO.

MECILDI: RESUMEN DEL PROYECTO

Los datos obtenidos del modelo OBDILCI son de interés general en lo que respecta a las lenguas en la Internet, ya que el método no permite realizar un análisis específico de un subconjunto concreto, como un país específico o un grupo de países.

Además, las investigaciones históricas realizadas para desarrollar indicadores de diversidad lingüística han aportado pruebas científicas documentadas que contradicen los métodos propuestos por las empresas de marketing, los cuales carecen del rigor científico necesario y cuyo marcado sesgo a favor del inglés ha alimentado, y sigue alimentando, una desinformación crónica sobre el espacio que ocupa el inglés en la web. Los sesgos más significativos de estas fuentes se derivan de su incapacidad para tener en cuenta la realidad del multilingüismo en los sitios web (véase este artículo) y, al mismo tiempo, ocultan la realidad del fuerte multilingüismo de la web, que está creciendo rápidamente (véase esta sección) gracias a las contribuciones de las herramientas de inteligencia artificial.

Estas circunstancias han llevado a OBDILCI a adoptar el método tradicional utilizado por fuentes influyentes pero sesgadas: la detección algorítmica de lenguas directamente sobre una muestra de sitios web que se supone representativa de toda la Web. Sin embargo, a diferencia de estos métodos superficiales, MECILDI aportará el rigor necesario al análisis del multilingüismo. Esta nueva y ambiciosa herramienta permitirá además a OBDILCI ampliar su ámbito de estudio mediante el análisis específico de segmentos concretos de la Internet, definidos según criterios geográficos o temáticos.

El programa MECILDI será capaz de analizar una amplia variedad de sitios web, aplicando a cada uno de ellos un algoritmo de detección de lengua—seleccionado por su fiabilidad y cobertura—. Esta herramienta, combinada con una amplia gama de técnicas de identificación, permitiría extraer la distribución lingüística del público objetivo en términos porcentuales, así como otros indicadores relacionados con el multilingüismo. Tener en cuenta la naturaleza multilingüe de una proporción significativa de sitios web supone un complejo reto técnico que constituye el objetivo principal de este proyecto.

En un primer momento, MECILDI podrá arrojar luz sobre la prevalencia real del inglés en la web utilizando la misma técnica que W3Techs, pero sin el sesgo significativo inherente a esos datos. Posteriormente, MECILDI proporcionará resultados originales y específicos capaces de orientar, sobre una base objetiva, las estrategias digitales y las políticas públicas en materia de lenguas y multilingüismo en el ciberespacio, comenzando por los dominios lingüísticos de las lenguas de Francia.

El proyecto cuenta actualmente con el apoyo de la DGLFLF. Este apoyo ha permitido desarrollar una versión inicial más sencilla que se centra en la técnica más habitual para los sitios web multilingües (el atributo hreflang) y se basa en la extrapolación de datos. Esta versión se encuentra actualmente en fase de pruebas y debería arrojar los primeros resultados en las próximas semanas. Se necesita un mayor apoyo para desarrollar la versión completa, capaz de identificar todas las técnicas multilingües en los sitios web y extraer su distribución lingüística, lo que supone un importante reto técnico.

En cualquier caso, el método y sus resultados se detallarán en un artículo publicado en una revista científica revisada por pares. Es muy probable que los resultados confirmen definitivamente las conclusiones de OBDILCI, que estiman que el porcentaje de páginas web en inglés a nivel mundial se sitúa entre el 20 % y el 27 % (véase el estudio presentado en la reunión de la UNESCO/LT4ALL en 2025).

Proyectos OBDILCI

  • Indicadores de la presencia de lenguas en la Internet
  • Las lenguas de Francia en la Internet
  • El francés en la Internet
  • El portugués en la Internet
  • El español en la Internet
  • IA y multilinguismo
  • gTLDs lingüísticos
  • Proyectos pre-históricos
  • Muerte digital de las lenguas