PROJETO PRINCIPAL – V3.0 (marzo de 2022)

Indicadores da presença das línguas na Internet

NOTA: Esta é uma versão arquivada do estudo. Clique aqui para obter a versão mais actualizada.

Introdução – V3.0 (março de 2022)

Versão 1: 2017, com 130 línguas com L1 > 5 milhões de falantes
Versão 2: 2021, com 329 línguas com L1 > 1 milhão de falantes e redução significativa do enviesamento
Versão 3: 3/2022, com redução abrangente do enviesamento e redefinição de alguns resultados.

Más que una nueva versión, se trata de la llegada a madurez del método, ya que ahora todos los sesgos están controlados hasta un umbral aceptable y los indicadores producidos son fiables dentro de un intervalo de confianza de ±20%.

El Observatorio se complace en compartir los resultados de la versión 3 de su modelo de cálculo de indicadores de presencia de lenguas en Internet, que, al igual que la versión 2, anunciada en 2021, procesa las 329 lenguas con más de un millón de hablantes nativos.

Um intervalo de confiança de -20% +20% pode parecer amplo para os padrões de outros trabalhos estatísticos, mas para dados sobre o lugar das línguas na Internet, um assunto que sempre foi muito difícil de alcançar e propenso a desinformação crónica, é um feito e tanto.

Todos os resultados estão disponíveis sob licença CC-BY-SA 4.0.

O que é que os resultados nos dizem? O vencedor é o multilinguismo.

Resumo do projeto

Ler um pequeno artigo de conteúdo aberto, revisto por pares, que apresenta os resultados da V3 em termos de indicadores e uma síntese do método:

Recursos: Indicadores sobre a presença de línguas na Internet, Actas da 1ª Reunião Anual do Grupo de Interesse Especial ELRA/ISCA sobre Línguas com poucos recursos, um workshop LREC2022 (Versão portuguesa).


Nota metodológica

Trata-se de uma abordagem indireta do espaço linguístico na Web, utilizando diferentes fontes de dados e técnicas estatísticas. Todos os cálculos e resultados baseiam-se em L1+L2, em que L1 é a língua materna e L2 é a(s) segunda(s) língua(s).

Segundo a nossa principal fonte demolinguística (Ethnologue n.º 24), a população mundial (L1) e a população de falantes de L1+L2 são:

L1 = 7 231 699 136     L2 = 10 361 716 756       L1+L2/L1 = 1.4328

Estima-se que o intervalo de confiança de todos os valores produzidos se situe dentro do intervalo ±20%.

A metodologia detalhada foi publicada em inglês em um periódico aberto e revisado por pares: O método por trás da produção sem precedentes de indicadores da presença de idiomas na Internet. Frontiers Research Metrics & Analytics, volumen 8 – 2023. doi: 10.3389/frma.2023.1149347 (versão em português)

Resultados do inquérito de março de 2022 (V3.0)

Results of the LC2022 (March 2022, V3.0) Study

Todos os indicadores para as 30 línguas com maior percentagem de conteúdos (tabla em espanhol)

RANGO
CONTENIDO
L1+L2
CODIGO
ISO
LENGUAS%
INTERNAUTAS
L1+L2
%
HABLANTES
L1+L2
%
HABLANTES
CONECTADOS
%
CONTENIDOS
L1+L2
%
PRESENCIA
VIRTUAL
L1+L2
%
PRODUCTIVIDAD
DE CONTENIDOS
L1+L2
1zhoMacro chino18,46%14,72%71,38%21,60%1,471,17
2engInglés14,83%13,01%64,86%19,60%1,511,32
3spaEspañol6,79%5,24%73,72%7,85%1,501,16
4hinHindi4,19%5,80%41,16%3,76%0,650,90
5rusRuso3,51%2,49%80,32%3,76%1,511,07
6fraFrancés2,98%2,58%65,80%3,33%1,291,12
7porPortugués2,99%2,49%68,43%3,13%1,261,05
8araMacro árabe3,97%3,53%63,99%3,09%0,870,78
9jpnJaponés1,99%1,22%92,63%2,66%2,181,34
10deuAlemán, Estándar2,04%1,30%89,17%2,37%1,821,16
11msaMacro malayo2,36%2,36%56,93%1,96%0,830,83
12turTurco1,17%0,85%78,05%1,14%1,350,98
13itaItaliano0,87%0,66%75,83%1,00%1,531,14
14korCoreano0,90%0,79%65,16%0,98%1,241,09
15fasMacro persa1,08%0,81%75,91%0,88%1,090,82
16benBengalí1,11%2,58%24,55%0,88%0,340,79
17vieVietnamita0,92%0,74%70,96%0,85%1,150,92
18urdUrdu0,95%2,22%24,38%0,66%0,300,70
19thaTailandés0,80%0,59%77,95%0,65%1,120,82
20polPolaco0,60%0,39%87,09%0,63%1,591,04
21marMarathi0,69%0,96%41,06%0,58%0,600,83
22telTelugu0,68%0,92%41,69%0,56%0,600,82
23tamTamil0,61%0,82%42,15%0,51%0,620,83
24javJavanés0,62%0,66%53,76%0,44%0,660,70
25nldHolandés0,38%0,24%91,14%0,41%1,731,08
26gujGujarati0,44%0,60%41,47%0,36%0,610,83
27ukrUcraniano0,40%0,32%71,02%0,35%1,090,88
28kanKannada0,41%0,57%41,11%0,33%0,590,82
29ronRumano0,32%0,23%79,57%0,30%1,290,93
30azeMacro Azerbaiyán0,33%0,23%81,54%0,28%1,210,85
  RESTANTE22,60%30,10% 15,13%  
TOTAL100,00%100,00 %100,00 %

LEGENDA

ISO = código de 3 letras ISO 639 para as línguas
L1+L2 = falantes da primeira e segunda línguas
INTERNAUTAS = % de falantes ligados
HABLANTES = % de falantes sob total mundial de falantes de L1+L2
HABLANTES CONECTADOS = % de falantes ligados sob total mundial de pesoas L1+L2 ligadas
CONTENIDOS =% do conteúdo da Web em cada lingua do total de páginas da Internet (NÃO do total de sites!)
PRESENCIA VIRTUAL = a proporção de CONTEÚDO na população mundial para cada idioma
PRODUCTIVIDAD DE CONTENIDO = a proporção de CONTEÚDO sobre LIGADOS para cada idioma

Resultados completos

Comparação de resultados com outros fornecedores

Descarregar os resultados completos para todas as 329 línguas

Vídeos

El método detrás de la producción sin precedentes de indicadores de la presencia de lenguas en la Internet

Fecha de publicación: marzo 2023

Duración: 39min


Créditos

OBDILCI Logo
La Francophonie
Unesco Chair on Language Policies for Multilingualism
Instituto Internacional de Lingua Portuguêsa (IILP)
Gov.BR

Los proyectos de OBDILCI

  • Indicadores de la presencia de las lenguas en la Internet
  • Las lenguas de Francia en la Internet
  • El francés en la Internet
  • El portugués en la Internet
  • El español en la Internet
  • IA e multilinguismo
  • DILINET
  • Proyectos pre-históricos