METODOLOGÍA – V3.0 (marzo de 2022)

Indicadores de la presencia de las lenguas en la Internet

Volver a V3.0 (marzo de 2022)

NOTA: Esta es una versión archivada del estudio. Haga clic aquí para ver la versión más reciente.

Proceso metodológico básico – V3.0 (marzo de 2022)

El modelo utiliza Ethnologue como fuente de datos demolingüísticos (distribución de hablantes de L1 y L2 por país), y la UIT y el Banco Mundial para los datos de conectividad (% de personas conectadas a internet por país) y un gran número de fuentes de datos (*) para producir 5 indicadores:

Internautas: % de personas conectadas por idioma
Tráfico : % de tráfico por lengua (trabajo estadístico basado en las aplicaciones de medición de tráfico Alexa y SimilarWeb aplicadas a varios cientos de sitios web seleccionados) (**)
Uso: % de uso de la Internet por lengua: basado en datos divididos entre abonados a las principales redes sociales, infraestructura de conexión (datos del Banco Mundial), aplicaciones abiertas, streaming y comercio electrónico (T-Index de Translated).
Interfaces y lenguas de traducción: contabilización de la presencia de lenguas en una amplia gama de interfaces de aplicaciones y aplicaciones de traducción en línea.
Índice : mide la fortaleza de los países en términos de indicadores de la sociedad de la información y los transforma en lenguas (24 indicadores diferentes).

La media de estos indicadores se considera una buena aproximación al porcentaje de contenidos dentro de un intervalo de confianza de -20% +20%.

(*) La mayoría de las fuentes ofrecen datos por países. Los datos por lengua se obtienen ponderándolos con datos demolingüísticos.

(**) La mayoría de las fuentes no cubren todos los países; las técnicas de extrapolación utilizadas son la ponderación por el porcentaje de personas conectadas o la utilización del enfoque por cuartiles.

Por qué la media de los indicadores anteriores sería una buena aproximación al porcentaje de contenidos web para cada lengua?

La forma más lógica de medir la presencia de lenguas en la Red parece consistir en aplicar un algoritmo fiable de reconocimiento de lenguas a todas las páginas Web existentes y contarlas…

Sí… pero la Web es demasiado vasta para que este método sea aplicable en la práctica, y los resultados pierden su sentido por dos razones principales:

El muestreo que se supone que representa a todo el universo está sesgado
No tener en cuenta el multilingüismo

y los resultados son extremadamente sesgados por estas dos razones.

Esto deja sólo dos opciones:

Los que utilicen el método lógico deberán centrarse en los sesgos y prestar la debida atención al multilingüismo.
Para los demás, utilice otros métodos.

Justificación de nuestro método alternativo

Los datos en los que podemos basarnos, debido a sus muy limitados sesgos, son :

datos demolingüísticos (desglose de hablantes de L1+L2 por países)
datos sobre las tasas de conexión a la Internet (% de personas conectadas a Internet por país).

Utilizando estas dos fuentes y la hipótesis de trabajo de que todas las lenguas tienen la misma tasa de conexión en el mismo país, es posible calcular la tasa de conexión por lengua.

A falta de otros datos, ésta sería una primera aproximación justa de los contenidos por lengua, ya que la experiencia ha demostrado que el porcentaje de contenidos parece estar ligado al porcentaje de usuarios por una especie de ley económica natural.

Teniendo en cuenta que algunas lenguas obtienen mejores (o peores) resultados que la media en cuanto a producción de contenidos, es posible intentar modular las cifras anteriores en función de otros parámetros indirectos.

Esto es exactamente lo que hace nuestro modelo, que tiene en cuenta factores como el tráfico, el uso de aplicaciones, la existencia de interfaces o programas de traducción, el alcance de las aplicaciones de gobierno electrónico, los datos abiertos y otros atributos de la sociedad de la información.

Más allá del indicador principal de hablantes conectados a la Internet, podemos considerar que las lenguas, por razones económicas, sociales, culturales, de educación en red u otras, generan más o menos contenidos como resultado de :

más o menos tráfico de Internet, por razones de precio, culturales o educativas,
plus ou moins d’abonnés aux applications les plus visitées
plus ou moins de soutien à la société de l’information là où vivent les locuteurs (par ex. gouvernement électronique)
leur absence (ou leur présence) dans les interfaces d’application ou les programmes de traduction
et, en général, leur niveau de soutien technologique au monde numérique, qui peut considérablement limiter ou favoriser leur utilisation.

Por regla general, los contenidos son producidos por hablantes de L1, pero los hablantes de L2 de una determinada lengua también pueden decidir generar contenidos por motivos económicos (¡no es de extrañar que la productividad de algunas lenguas principales sea tan alta en comparación con otras!).

Evidentemente, el método indirecto que proponemos no sustituye a una medición real. Sin embargo, en ausencia de tal medición, y en el contexto de resultados extremadamente sesgados de mediciones incompletas, es una mejor aproximación, siempre que refleje adecuadamente estos diversos factores.

El método consiste esencialmente en obtener la distribución de contenidos por lengua como una modulación de la distribución de hablantes conectados por lengua, en función de diversos parámetros medidos.

Obviamente, como ocurre con cualquier enfoque estadístico, todos los sesgos deben exponerse, explicarse y analizarse…

Evolución de los sesgos en las distintas versiones del método

ELEMENTO	VERSIÓN 1	VERSIÓN 2	VERSIÓN 3
Fuente lingüística	Yoshua (2017)	Ethnologue #24 (2021) Los expertos pueden discrepar con algunos de los datos, pero son los mejores datos disponibles.	Ethnologue #24 (2021)
Extrapolación L2	Los resultados de L2 se calculan extrapolando los de L1. Existe un fuerte sesgo a favor de las lenguas con mayor presencia en los países en desarrollo (principalmente inglés y francés).	Resuelto Ethnologue proporciona datos en L2 por lo que este sesgo desaparece..	Idem
Principal hipótesis de ponderación	Todos los hablantes de cada país se calculan con el mismo % de conectividad. Ligero sesgo en contra de las lenguas europeas en los países en desarrollo y a favor de las lenguas de inmigrantes en los países desarrollados.	Idem En la medida en que el modelo no se utiliza para comparar lenguas dentro de un mismo país y se limita a hablantes con una población superior a un millón, el sesgo es aceptable.	Idem Cette hypothèse de travail est la base du modèle car elle permet la plupart des calculs en tant que modulation de la valeur autour du % de personnes connectées par pays.
Técnicas de extrapolación de fuentes	Los sesgos favorecen a los países más conectados, pero los efectos se consideran marginales (sobre todo cuando la fuente cubre más del 70% del total).	Idem	Idem

Sesgo de la fuente: 0 = totalmente sesgado – 20 = ausencia total de sesgos

ELEMENTO	VERSIÓN 1	VERSIÓN 2	VERSIÓN 3
Internautas	18 La UIT es una fuente fiable con actualizaciones anuales.	15 La UIT dejó de actualizar sus estimaciones cuando los funcionarios de los países no facilitaron datos.	19 La Banque mondiale a repris les données et les mises à jour sont fréquentes
Tráfico	13 Alexa está muy sesgado en contra de las lenguas asiáticas y ligeramente sesgado a favor de las lenguas europeas (con la excepción del portugués). El sesgo de selección se controla más o menos utilizando la media truncada en un 20%.	11 El sesgo de Alexa contra los países asiáticos parece superado, pero un nuevo sesgo y error afectan ahora a los países europeos.	16 Técnica implementada para anular el sesgo de selección. Utiliza una mezcla de resultados de Alexa y SimilarWeb. Sigue existiendo un pequeño sesgo que afecta a muchas lenguas europeas. (*) Los sesgos de la herramienta se reflejan en el resultado del chino, que es desproporcionadamente alto.
Uso	12 Basado en datos de las principales redes sociales. Sesgado contra las lenguas no occidentales.	12 Idem	15 Integración de redes sociales no occidentales. Algunas mejoras aún posibles para la V4.
Interfaz	19 Se trata de datos objetivos y el muestreo es amplio.	19 Idem	19 Idem
Índices	15 Es necesario ampliar el muestreo.	18 El muestreo es casi exhaustivo.	18 Idem
Contenido	5 Depende en gran medida de las estadísticas de Wikimedia, que son excelentes pero están muy sesgadas hacia las lenguas no occidentales y favorecen mucho a ciertas lenguas (francés, hebreo, sueco…).	8 Técnicas utilizadas para controlar los sesgos estadísticos de Wikimedia.	ELIMINADO Tras intensos esfuerzos por incluir todas las enciclopedias en línea más allá de Wikipedia, se ha llegado a la conclusión de que lo mejor es eliminar este indicador de las entradas, ya que es inherentemente sesgado.

(*) El uso de los sitios web mejor clasificados perjudica a los países con mayores niveles de alfabetización informacional, en los que una mayor proporción del tráfico se dirige a sitios web que no figuran entre los primeros de la lista.

Resumen de los sesgos

V1 estaba fuertemente sesgada en contra de las lenguas no europeas, y al mismo tiempo sesgada a favor de las pocas lenguas europeas con una fuerte presencia en los países en desarrollo con bajos índices de conectividad (principalmente inglés y francés).

V2 ha resuelto el segundo sesgo principal y ha reducido el sesgo negativo asociado a las lenguas no europeas, pero no lo suficiente, ya que el indicador de contenido de entrada sigue estando muy sesgado.

La V3 resolvió el sesgo de contenido eliminándolo como entrada y eliminó casi todo el sesgo negativo relacionado con las lenguas no europeas. En general, sigue existiendo un ligero sesgo negativo relacionado con las lenguas europeas, pero el nivel de fiabilidad de los resultados ha mejorado y alcanzado un nuevo umbral de calidad.

La evolución del método nos ha permitido pasar de un fuerte sesgo negativo a favor de las lenguas no europeas a un ligero sesgo negativo a favor de las lenguas europeas… y a un posible sesgo positivo a favor del chino debido al nuevo proceso de indicadores de tráfico.

Dicho esto, los datos deben tomarse con cautela, ya que sólo son fiables dentro de un intervalo de confianza de –20% +20%, sobre todo cuando se comparan resultados brutos que se sitúan dentro de este intervalo (como muestra la pirámide invertida de contenidos principales por lenguas para las 4 lenguas de la posición 4).

Posibles mejoras para la versión 4

La productividad de los contenidos se mide sobre la base de L1+L2. Sería muy útil comprobar el valor de otro factor de productividad de contenidos basado únicamente en L1; como la versión 3 del modelo calcula todo sobre la base de L1+L2, esto requeriría otra versión del modelo.

El indicador USO puede mejorarse aún más y reducir sus sesgos centrándose en :

Su componente de streaming de vídeo mediante la adición de fuentes distintas de YouTube y Netflix .
Su componente de «datos abiertos», que complementa la fuente única y se centra en estadísticas relativas a datos abiertos, MOOC, etc.
El sesgo ha pasado de un fuerte sesgo hacia las lenguas no europeas a un débil sesgo hacia las lenguas europeas, que debe corregirse.

Vista gráfica de la evolución del método de V1 a V3

Artículo publicado sobre nuestra metodología

The method behind the unprecedented production of indicators of the presence of languages in the Internet, sept. 2022

Los proyectos de OBDILCI

Indicadores de la presencia de las lenguas y del multilinguismo en la Internet
Las lenguas de Francia en la Internet
El francés en la Internet
El portugués en la Internet
El español en la Internet
Informes sobre el multilinguismo de la Web
Cursos
IA e multilinguismo
gTLDs linguisticos
DILINET
Proyectos pre-históricos

Ver el proyecto principal

Ver otros proyectos