PROYECTO PRINCIPAL – V3.0 (marzo de 2022)

Indicadores de la presencia de las lenguas en la Internet

NOTA: Esta es una versión archivada del estudio. Haga clic aquí para ver la versión más actualizada.

Introducción – V3.0 (marzo de 2022)

Versión 1 : 2017, con 130 lenguas con L1 > 5 millones de hablantes
Versión 2 : 2021, con 329 lenguas con L1 > 1 millón de hablantes e importante reducción de sesgos
Versión 3 : 3/2022, con reducción exhaustiva de sesgos y redefinición de algunos resultados.

Más que una nueva versión, se trata de la llegada a madurez del método, ya que ahora todos los sesgos están controlados hasta un umbral aceptable y los indicadores producidos son fiables dentro de un intervalo de confianza de ±20%.

El Observatorio se complace en compartir los resultados de la versión 3 de su modelo de cálculo de indicadores de presencia de lenguas en Internet, que, al igual que la versión 2, anunciada en 2021, procesa las 329 lenguas con más de un millón de hablantes nativos.

Un intervalo de confianza de -20% +20%, puede parecer amplio si aplicamos los criterios de otros trabajos estadísticos, pero para los datos sobre el lugar que ocupan las lenguas en la Internet, un tema al que siempre ha sido muy difícil llegar, y propenso a la desinformación crónica, es toda una proeza.

Todos los resultados están disponibles bajo licencia CC-BY-SA 4.0.

¿Qué nos dicen los resultados? El ganador es el multilingüismo.

Resumen del proyecto

Lea un breve artículo en contenidos abiertos y revisado por pares que presenta los resultados de la V3 en términos de indicadores y una síntesis del método:

Recursos: Indicadores sobre la presencia de lenguas en Internet, Actas de la 1ª Reunión Anual del Grupo de Interés Especial ELRA/ISCA sobre Lenguas con Recursos Insuficientes, un taller de LREC2022 (version en español).


Nota metodológica

Se trata de una aproximación indirecta al espacio de las lenguas en la red utilizando diferentes fuentes de datos y técnicas estadísticas. Todos los cálculos y resultados se basan en L1+L2, donde L1 es la lengua materna y L2 la(s) segunda(s) lengua(s).

Siguiendo nuestra principal fuente demolingüística (Ethnologue nº 24), la población mundial (L1) y la población de hablantes de L1+L2 son:

L1 = 7 231 699 136     L2 = 10 361 716 756       L1+L2/L1 = 1.4328

Se estima que el intervalo de confianza de todas las cifras producidas está dentro de la ventana ±20%.

La metodología detallada se ha publicado en inglés en un Journal abierto revisado por pares : The method behind the unprecedented production of indicators of the presence of languages in the Internet. Frontiers Research Metrics & Analytics, volumen 8 – 2023. doi: 10.3389/frma.2023.1149347

Resultados del estudio de marzo de 2022 (V3.0)

Results of the LC2022 (March 2022, V3.0) Study

Todos los indicadores de las 30 lenguas con mayor porcentaje de contenido

RANGO
CONTENIDO
L1+L2
CODIGO
ISO
LENGUAS%
INTERNAUTAS
L1+L2
%
HABLANTES
L1+L2
%
HABLANTES
CONECTADOS
%
CONTENIDOS
L1+L2
%
PRESENCIA
VIRTUAL
L1+L2
%
PRODUCTIVIDAD
DE CONTENIDOS
L1+L2
1zhoMacro chino18,46%14,72%71,38%21,60%1,471,17
2engInglés14,83%13,01%64,86%19,60%1,511,32
3spaEspañol6,79%5,24%73,72%7,85%1,501,16
4hinHindi4,19%5,80%41,16%3,76%0,650,90
5rusRuso3,51%2,49%80,32%3,76%1,511,07
6fraFrancés2,98%2,58%65,80%3,33%1,291,12
7porPortugués2,99%2,49%68,43%3,13%1,261,05
8araMacro árabe3,97%3,53%63,99%3,09%0,870,78
9jpnJaponés1,99%1,22%92,63%2,66%2,181,34
10deuAlemán, Estándar2,04%1,30%89,17%2,37%1,821,16
11msaMacro malayo2,36%2,36%56,93%1,96%0,830,83
12turTurco1,17%0,85%78,05%1,14%1,350,98
13itaItaliano0,87%0,66%75,83%1,00%1,531,14
14korCoreano0,90%0,79%65,16%0,98%1,241,09
15fasMacro persa1,08%0,81%75,91%0,88%1,090,82
16benBengalí1,11%2,58%24,55%0,88%0,340,79
17vieVietnamita0,92%0,74%70,96%0,85%1,150,92
18urdUrdu0,95%2,22%24,38%0,66%0,300,70
19thaTailandés0,80%0,59%77,95%0,65%1,120,82
20polPolaco0,60%0,39%87,09%0,63%1,591,04
21marMarathi0,69%0,96%41,06%0,58%0,600,83
22telTelugu0,68%0,92%41,69%0,56%0,600,82
23tamTamil0,61%0,82%42,15%0,51%0,620,83
24javJavanés0,62%0,66%53,76%0,44%0,660,70
25nldHolandés0,38%0,24%91,14%0,41%1,731,08
26gujGujarati0,44%0,60%41,47%0,36%0,610,83
27ukrUcraniano0,40%0,32%71,02%0,35%1,090,88
28kanKannada0,41%0,57%41,11%0,33%0,590,82
29ronRumano0,32%0,23%79,57%0,30%1,290,93
30azeMacro Azerbaiyán0,33%0,23%81,54%0,28%1,210,85
  RESTANTE22,60%30,10% 15,13%  
TOTAL100,00%100,00 %100,00 %

LEYENDA

ISO = 3 letras ISO 639 código para las lenguas
L1+L2 = hablantes de primera y segunda lengua

INTERNAUTAS = % de hablantes conectados
HABLANTES = % de hablantes sobre el total mundial de hablantes de L1+L2
HABLANTES CONECTADOS = % de hablantes conectados sobre el total mundial de personas conectadas L1+L2
CONTENIDOS = % de contenidos Web en cada lengua sobre el total de páginas Web de Internet (¡NO sobre el total de sitios Web!)
PRESENCIA VIRTUAL = la proporción de CONTENIDO sobre la Población Mundial para cada idioma
PRODUCTIVIDAD DE CONTENIDO = la proporción de CONTENIDO sobre CONECTADOS para cada idioma

Resultados completos

Comparación de resultados con otros proveedores

Descargar los resultados completos de las 329 lenguas

Vídeos

El método detrás de la producción sin precedentes de indicadores de la presencia de lenguas en la Internet

Fecha de publicación: marzo 2023

Duración: 39min


Créditos

OBDILCI Logo
La Francophonie
Unesco Chair on Language Policies for Multilingualism
Instituto Internacional de Lingua Portuguêsa (IILP)
Gov.BR

Los proyectos de OBDILCI

  • Indicadores de la presencia de las lenguas en la Internet
  • Las lenguas de Francia en la Internet
  • El francés en la Internet
  • El portugués en la Internet
  • El español en la Internet
  • IA e multilinguismo
  • DILINET
  • Proyectos pre-históricos