PROYECTO PRINCIPAL

Indicadores de la presencia de lenguas en la Internet

Resumen del proyecto

Hasta hace poco, la fuente más consultada de estadísticas relacionadas con el uso de las lenguas en línea se basaba en algoritmos para analizar los sitios web clasificados como los más visitados. Aunque estas estadísticas ofrecen una visión interesante, es posible que no reflejen con exactitud la presencia de las lenguas en la Web debido a la falta de consideración de la naturaleza a menudo muy multilingüe de los sitios web, lo que desencadena importantes sesgos.

En 2017, el Observatorio de la Diversidad Lingüística y Cultural en Internet ideó un nuevo enfoque que podría ayudar a seguir mejor el progreso y la prevalencia de las lenguas en línea. Gracias a este enfoque, hemos podido identificar indicadores significativos que describen la presencia de 343 lenguas en Internet.

Puntos sobresalientes de los últimos resultados

ISOLenguas% INTERNAUTAS% HABLANTES L1+L2% HABLANTES
CONNECTADOS
% CONTENIDOSPRESENCIA
VIRTUAL
PRODUCTIVIDAD
CONTENIDOS
engInglés15,79%14,13%70,86%20,42%1,451,29
zhoChino Macro17,41%14,48%76,27%18,88%1,301,08
spaEspañol6,62%5,22%80,46%7,70%1,481,16
hinHindi4,34%5,68%48,48%3,82%0,670,88
rusRuso3,28%2,38%87,42%3,73%1,571,14
araArabe Macro4,37%4,08%67,81%3,65%0,890,84
fraFrancés3,05%2,91%66,58%3,41%1,181,12
porPortugués2,89%2,46%74,42%3,09%1,251,07
jpnJaponés1,54%1,15%84,98%2,20%1,911,42
deuAlemán, Estándar1,80%1,25%91,21%2,15%1,721,20

Resultados finales – Última actualización: abril de 2024 (V5.1)

¿Le sorprende ver que el porcentaje de contenido en inglés ronda el 20%?

Si es así y tienes curiosidad por entender ese asunto vea:

Metodología

El nuevo enfoque del observatorio consiste en aproximar indirectamente la cantidad relativa de contenidos web por lengua. Al hacerlo, también tiene en cuenta factores cruciales que a menudo se pasan por alto al describir la presencia de una lengua en Internet, pero que deberían considerarse para evitar errores o sesgos.

En primer lugar, el equipo estudia la posible existencia de una «ley económica» de la comunicación en línea, que vincula la oferta (es decir, los contenidos web disponibles en una lengua) con la demanda (es decir, el número de hablantes de esa lengua conectados a la Internet). Los resultados anteriores sugieren que cuantos más hablantes de una lengua determinada están conectados a la Internet, más páginas web en esa lengua tienden a existir.

Además, investigaciones anteriores sugieren que los usuarios de la Internet suelen preferir comunicarse en su lengua materna cuando hay contenidos disponibles en esa lengua, pero se conforman con utilizar su(s) segunda(s) lengua(s) en ausencia de estos contenidos. En algunos casos, los internautas también pueden crear contenidos en su(s) segunda(s) lengua(s) por motivos económicos y recurrir a servicios de traducción para ello.

La presencia de una lengua en la Internet también está relacionada con la cantidad de tráfico de Internet en distintos sitios, el número de suscripciones a redes sociales y el progreso de los distintos países en cuanto a servicios relacionados con la Internet para los ciudadanos. Los indicadores de presencia la en Internet creados por los investigadores tienen en cuenta colectivamente todos estos factores, lo que permite hacerse una idea más detallada de en qué medida y de qué manera existen distintas lenguas en línea.

Cibergeografía de las familias lingüísticas

Análisis de la evolución lingüística de la desde una perspectiva geográfica.

Índice de Ciberglobalización (CGI)

El Índice de Ciberglobalización es un indicador estratégico del futuro de una lengua en Internet. Se define como :

CGI (L) = (L1 + L2)/L1(L) x S(L) x C(L) donde:

(L1+L2)/L1 (L) es la tasa de multilingüismo de la lengua L

S(L) es el porcentaje de países que tienen hablantes de la lengua L

C(L) es el porcentaje de hablantes de la lengua L conectados a Internet

CRONOLOGIA DE LAS VERSIONES Y NOTAS ASOCIADAS

Si desea tener una mejor idea del método sin leer los artículos publicados e independientemente de las últimas figuras, vaya a la versión 3.0 para la que se ha realizado un cierto esfuerzo de explicación y visualización de resultados.

Versión 5.1 (abril de 2024)

Actualizado en esta versión

1) Se ha utilizado el conjunto de datos Ethnologue nº 27 de marzo de 2024 para las cifras demolingüísticas. También se ha actualizado el indicador de soporte digital proporcionado por Ethnologue como parte de esta base de datos. Se han actualizado las cifras de la UIT sobre el porcentaje de personas conectadas a Internet por país.

2) A continuación, se han añadido al modelo 19 nuevas lenguas que han alcanzado el umbral de 1 millón de hablantes de L1, lo que supone un total de 361 lenguas:

Malayo, Ambonés abs
Bulú bum
Bangala bxg
Efik efi
Vasco eus
Gbaya Macro gba
Irlandés gle
Pidgin Inglés de Ghana gpe
Ibano iba
Krio kri
Inglés de Liberia lir
Indonesio, Makassar mfp
Sajón, Bajo nds
Malayo, Papúa pmy

Rakhine rki

Sango sag

Escocés sco

Tok Pisin tpi

3) Los cambios en los resultados del modelo son pocos.

  • En cuanto a contenidos, el inglés consolida ligeramente su primera posición frente al chino.
  • El hindi se sitúa a la cabeza de las lenguas en 4ª posición, dejando al árabe por detrás del ruso y por delante del francés y el portugués.

Versión 4.0 (mayo de 2023)

Actualizaciones de la metodología en esta versión

1) En la integración de los datos de Ethnologue, Estándar Árabe (arb) no se ha computado como segunda L1 para todos los países implicados, excepto Arabia Saudí. La razón es que uno de los principios fundamentales del modelo es que sólo hay una L1 para cada lengua y que la macrolengua ara no puede incluir dos veces la misma población en L2.

2) En cuanto a la inclusión del Indicador de Soporte Digital (DLS) de la fuente Assessing Digital Language Support on a Global Scale, el indicador se establece para cada lengua. Esto plantea la cuestión de cómo gestionar las macrolenguas. La decisión tomada fue atribuir a cada macrolengua el indicador más alto del conjunto de lenguas que pertenecen a esa macrolengua.

3) El indicador interfaz del modelo se computa ahora como la mitad de la suma del indicador anterior más el DLS (que tiene un valor entre 0 y 1) y recalculando los resultados para normalizarlos al 100%. Esta adición reduce el sesgo de ese indicador al elevar potencialmente el peso de muchas lenguas que estaban ausentes de las interfaces de aplicación o de los programas de traducción y tenían un peso nulo. Para el resto de lenguas no induce cambios notables.

Versión 3.2 (abril de 2023)

Datos de la UIT de % de personas conectadas por país actualizados

Resumen

  • El porcentaje de personas conectadas en todo el mundo ha pasado del 64% al 67% en un año
  • La UIT ha retomado la propuesta de estimaciones en países donde el gobierno no propone datos oficiales
  • Muchos cambios importantes en los datos de conectividad por países, con algunos fuertes crecimientos o descensos.
  • Prácticamente sin cambios para las primeras lenguas
  • El fuerte crecimiento de la conectividad en África impulsa el aumento por encima del 10% de las lenguas africanas
  • Empiezan a aparecer los signos de progreso para los menos conectados: el francés progresa gracias a África junto con las lenguas africanas; las lenguas asiáticas siguen progresando excepto el chino
  • El crecimiento del árabe se ha detenido
Versión 3.1 (agosto de 2022)

El Banco Mundial ha actualizado el % personas conectadas por país). Incluye comparación con V3.c

Versión 3.c (agosto de 2022)

Corrección de un error en V3, con impacto marginal

Versión 3.0 (marzo de 2022)

Rediseño del modelo, hasta llegar a la versión final, con todos los sesgos controlados.

Resumen

Más que una nueva versión, se trata de la llagada a madurez del método, ya que ahora todos los sesgos están controlados hasta un umbral aceptable y los indicadores producidos son fiables, dentro de un intervalo de confianza de ±20%.

Un intervalo de confianza de ±20% puede parecer amplio si aplicamos los criterios de otros trabajos estadísticos, pero para los datos sobre el espacio de las lenguas en la Internet, un tema al que siempre ha sido muy difícil llegar, y propenso a desinformación crónica, esto es una hazaña.

Todos los resultados estan disponibles bajo licencia CC-BY-SA 4.0.

Version 2.0 (2021)

Modelo mejora el control de sesgos lo que permite llegar a 329 lenguas

Resumen

En febrero de 2021 comienza un proyecto de medición del portugués en la Internet y de comparación con otras lenguas, coordinado por la Cátedra UNESCO de políticas públicas de multilingüismo, realizado por el Observatorio de la Diversidad Lingüística y Cultural en Internet en el marco del Instituto Internacional de la Lengua Portuguesa y bajo el apoyo del Departamento Cultural y Educativo del Ministerio de Relaciones Exteriores de Brasil. Los primeros resultados se obtendrán en mayo de 2021 y los productos completos en agosto de 2021.

El estudio obtendrá algunas mejoras notables:
– Utilización del último conjunto de datos globales de Ethnologue para los datos demolingüísticos
– Procesamiento de hablantes de L2 por país en lugar de global
– Actualización y ampliación de los indicadores de lengua y país
– Ampliación de la cobertura lingüística

Versión 1.2 (2019)

Ofrece una comparación entre los resultados de 2015, 2016 y 2017 utilizando la versión 2017 & jugando con los datos de la UIT de años anteriores.

Notas metodológicas

1 – Sólo los datos de la UIT han sido actualizados en 2016 y 2017
2- Una comparación completa requeriría la actualización de los datos demo-lingüísticos Y de los diversos micro-indicadores de presencia de lenguas o países
3-. Sin embargo, los datos actualizados son los de mayor impacto dentro del modelo y, por tanto, ofrecen una indicación creíble de las tendencias
4- Es importante entender que los porcentajes de aumento o disminución no son absolutos, sino relativos al resto de lenguas.

Resumen de los resultados

En cuanto a las lenguas más potentes, la evolución es lenta, aunque existe un claro diferencial entre
– las lenguas que progresan muy fuertemente: hindi y malayo
– lenguas que progresan bastante: coreano, urdu, árabe y portugués
– lenguas que continúan su progresión constante; español y polaco
– lenguas en declive constante: japonés, ruso y chino
– lenguas en fuerte declive: alemán, francés, italiano y, en menor medida, inglés.


Nótese que el árabe pasa por delante del japonés y el urdu por delante del polaco y el coreano.

En las mejores progresiones aparecen las lenguas africanas y asiáticas; después aparecen el cabilio, el árabe, el turco y el armenio en fuerte progresión.
Le siguen algunas lenguas europeas como el rumano, el ucraniano, el portugués, el albanés y el español en la mitad del rango en progresión estable.
El polaco es la última lengua en progresión débil y lo contrario ocurre con el primer descenso moderado del ruso y el chino, seguidos del hebreo y el sueco
La mayoría de las lenguas occidentales muestran lógicamente un descenso relativo como consecuencia de la saturación de la tasa de conexión (90% de personas conectadas).
El inglés continúa un declive constante y el francés aún más, señal de que el África francófona es lenta en su lucha contra la brecha digital.
Al final de la clasificación, fuerte declive de las lenguas locales de los países asiáticos o africanos (a menudo francófonos) que siguen atrapados en la brecha digital.

Versión 1.0 (2017)

Inicio de un nuevo método para 129 lenguas.

Resumen

El observatorio ha medido el espacio de las lenguas latinas, el inglés y el alemán en Internet, entre 1997 y 2007.

Tras 10 años de eclipse, debido a la evolución de los motores de búsqueda, volvemos, gracias al apoyo de la Organización Internacional de la Francofonía y con MAAYA, con un nuevo método para producir indicadores para las 140 lenguas de más de 5 millones de hablantes.

Los proyectos de OBDILCI

  • Indicadores de la presencia de las lenguas en la Internet
  • Las lenguas de Francia en la Internet
  • El francés en la Internet
  • El portugués en la Internet
  • El español en la Internet
  • IA e multilinguismo
  • DILINET
  • Proyectos pre-históricos