PROJETO PRINCIPAL

Indicadores da presença das línguas na Internet

Resumo do projeto

Até há pouco tempo, a fonte mais consultada de estatísticas relacionadas com a utilização das línguas em linha baseava-se em algoritmos para analisar os sítios Web classificados como os mais visitados. Embora estas estatísticas ofereçam perspectivas interessantes, podem não refletir com exatidão a presença das línguas na Web devido à falta de consideração da natureza frequentemente muito multilingue dos sítios Web, o que provoca enviesamentos significativos.

Em 2017, o Observatório da Diversidade Linguística e Cultural na Internet concebeu uma nova abordagem que pode ajudar a acompanhar melhor o progresso e a prevalência das línguas em linha. Graças a esta abordagem, foi possível identificar indicadores significativos que descrevem a presença de 343 línguas na Internet.

Destaques dos últimos resultados

ISOLínguas% INTERNAUTAS% FALANTES
L1+L2
% FALANTES
CONECTADOS
% CONTEÚDOPRESENÇA
VIRTUAL
PRODUCTIVIDADE
DE CONTEÚDO
engEnglish15,79%14,13%70,86%20,42%1,451,29
zhoChino17,41%14,48%76,27%18,88%1,301,08
spaEspanhol6,62%5,22%80,46%7,70%1,481,16
hinHindi4,34%5,68%48,48%3,82%0,670,88
rusRusso3,28%2,38%87,42%3,73%1,571,14
araMacro árabe4,37%4,08%67,81%3,65%0,890,84
fraFrancês3,05%2,91%66,58%3,41%1,181,12
porPortuguês2,89%2,46%74,42%3,09%1,251,07
jpnJaponês1,54%1,15%84,98%2,20%1,911,42
deuAlemão, Standard1,80%1,25%91,21%2,15%1,721,20

Resultados finais – Última atualização: novembro de 2024 (V5.2)

A última atualização, V5.2, de novembro de 2024, na sequência das actualizações da UIT para 62 países, implicou 88 milhões de novos internautas L1+L2. No entanto, isto não é suficiente para trazer mais do que mudanças cosméticas (exceto para as línguas do Malawi, que é o único país africano que apresenta uma atualização, aliás, uma correção que reduz os indivíduos ligados de 28% para 18%). A base de dados está actualizada com os resultados da versão 5.2, mas para não sobrecarregar a página, deixamos em acesso os dados da versão 5.1, incluindo os dados de ciber-geografia que praticamente não apresentam alterações. Para mais detalhes sobre a versão 5.2, consulte o blog.

Está surpreendido por ver que a percentagem de conteúdos em inglês é de cerca de 20%?

Se assim for, e se tiver curiosidade em compreender esta questão, consulte:

Está interessado numa comparação/avaliação entre todos os métodos existentes identificados para medir as línguas em linha? Quer ter mais provas de que os conteúdos em inglês rondam os 20%?

Metodologia

A nova abordagem do observatório consiste em aproximar indiretamente a quantidade relativa de conteúdos Web por língua. Ao fazê-lo, tem também em conta factores cruciais que são frequentemente ignorados quando se descreve a presença de uma língua na Internet, mas que devem ser tidos em conta para evitar erros ou preconceitos.

Em primeiro lugar, a equipa estuda a possível existência de uma “lei económica” da comunicação em linha, que associa a oferta (ou seja, o conteúdo da Web disponível numa língua) à procura (ou seja, o número de falantes dessa língua ligados à Internet). Os resultados acima sugerem que quanto mais falantes de uma determinada língua estiverem ligados à Internet, mais páginas Web nessa língua tendem a existir.

Além disso, estudos anteriores sugerem que os utilizadores da Internet preferem muitas vezes comunicar na sua língua materna quando há conteúdos disponíveis nessa língua, mas contentam-se em utilizar a(s) sua(s) segunda(s) língua(s) na ausência de tais conteúdos. Em alguns casos, os utilizadores da Internet podem também criar conteúdos na(s) sua(s) segunda(s) língua(s) por razões económicas e utilizar serviços de tradução para o fazer.

A presença de uma língua na Internet está também relacionada com a quantidade de tráfego na Internet em diferentes sítios, o número de subscrições de redes sociais e o progresso dos diferentes países em termos de serviços relacionados com a Internet para os cidadãos. Os indicadores de presença na Internet desenvolvidos pelos investigadores têm coletivamente em conta todos estes factores, dando uma imagem mais detalhada da medida em que e como as diferentes línguas existem em linha.

Cibergeografia das famílias linguísticas

Análise da evolução linguística da língua numa perspetiva geográfica.

Índice de Ciber-Globalização (CGI)

O índice de ciberglobalização é um indicador estratégico do futuro de uma língua na Internet. É definido como :

CGI (L) = (L1 + L2)/L1(L) x S(L) x C(L) em que

(L1+L2)/L1 (L) é a taxa de multilinguismo da língua L

S(L) é a percentagem de países com falantes da língua L

C(L) é a percentagem de falantes da língua L ligados à Internet

CRONOLOGIA DOS LANÇAMENTOS E NOTAS ASSOCIADAS

Se quiser ter uma ideia melhor do método sem ler os artigos publicados e independentemente dos números mais recentes, consulte a versão 3.0, na qual foram feitos alguns esforços para explicar e visualizar os resultados.

Versão 5.1 (abril de 2024)

Atualizado nesta versão

1) O conjunto de dados Ethnologue n.º 27, de março de 2024, foi utilizado para os dados demolinguísticos. O indicador de suporte digital fornecido pelo Ethnologue como parte desta base de dados também foi atualizado. Os dados da UIT relativos à percentagem de indivíduos ligados à Internet por país foram actualizados.

2) 19 novas línguas que atingiram o limiar de 1 milhão de falantes de língua materna foram acrescentadas ao modelo, perfazendo um novo total de 361 línguas:

Malaio ambonês abs
Bulu bum
Bangala bxg
Efique efi
Basca eus
Gbaya gba
Irlandês gle
Pidgin ghanês gpe
Iban iba
Krio kri
Inglês da Libéria lir
Crioulo de base malaia mfp
Baixo saxão nds
Malais da Nova Guiné pmy
Crioulo da Guiné-Bissau pov
Arracanesa rki
Sango sag
Scots sco
Tok Pisin tpi

3) As alterações nos resultados do modelo são poucas.

  • Em termos de conteúdos, o inglês consolida ligeiramente a sua primeira posição em relação ao chinês.
  • O hindi assume a liderança das línguas na 4ª posição, deixando o árabe para trás do russo e à frente do francês e do português.

Versão 4.0 (maio de 2023)

Actualizações da metodologia nesta versão

1) Na integração dos dados do Ethnologue, o árabe padrão (arb) não foi computado como uma segunda L1 para todos os países envolvidos, exceto a Arábia Saudita. A razão é que um dos princípios fundamentais do modelo é que existe apenas uma L1 para cada língua e que a macro-língua ara não pode incluir a mesma população L2 duas vezes.

2) Relativamente à inclusão do Indicador de Suporte Digital (DLS) da fonte Assessing Digital Language Support on a Global Scale, o indicador é definido para cada língua. Isto levanta a questão de como gerir as macro-línguas. A decisão tomada foi a de atribuir a cada macro-língua o indicador mais elevado do conjunto de línguas pertencentes a essa macro-língua.

3) O indicador interface no modelo é agora calculado como metade da soma do indicador anterior mais DLS (que tem um valor entre 0 e 1) e recalculando os resultados para normalizar a 100%. Esta adição reduz o enviesamento desse indicador, aumentando potencialmente o peso de muitas línguas que não estavam presentes nas interfaces de aplicação ou no software de tradução e que tinham peso zero. Para as restantes línguas, não induz qualquer alteração percetível.

Versão 3.2 (abril de 2023)

Atualização dos dados da UIT sobre a percentagem de pessoas ligadas por país

Resumo

  • A percentagem de pessoas ligadas em todo o mundo aumentou de 64% para 67% num ano.
  • A UIT aceitou a proposta de estimativas nos países em que o governo não propõe dados oficiais.
  • Muitas alterações importantes nos dados de conetividade por país, com alguns fortes crescimentos ou declínios.
  • Praticamente inalterado para as primeiras línguas
  • O forte crescimento da conetividade em África faz com que o número de línguas africanas aumente para mais de 10%.
  • Começam a aparecer sinais de progresso para os menos conectados: o francês está a progredir graças a África, juntamente com as línguas africanas; as línguas asiáticas continuam a progredir, exceto o chinês.
  • O crescimento árabe está a parar
Versão 3.1 (agosto de 2022)

O Banco Mundial actualizou a percentagem de pessoas ligadas por país). Inclui comparação com a V3.c

Versão 3.c (agosto de 2022)

Correção de um erro na V3, com impacto marginal

Versão 3.0 (março de 2022)

Reformulação do modelo, até se chegar à versão final, com todos os vieses controlados.

Resumo

Mais do que uma nova versão, trata-se da maturidade do método, uma vez que todos os enviesamentos estão agora controlados para um limiar aceitável e os indicadores produzidos são fiáveis, com um intervalo de confiança de ±20%.

Um intervalo de confiança de ±20% pode parecer amplo para os padrões de outros trabalhos estatísticos, mas para dados sobre o espaço linguístico na Internet, um assunto que sempre foi muito difícil de alcançar e propenso a desinformação crónica, isto é um feito.

Todos os resultados estão disponíveis sob licença CC-BY-SA 4.0.

Versão 2.0 (2021)

O modelo melhora o controlo das tendências, permitindo alcançar 329 línguas

Resumo

Fevereiro de 2021 marca o início de um projeto de medição do português na Internet e comparação com outras línguas, coordenado pela Cadeira da UNESCO em políticas públicas de multilinguismo, realizado pelo Observatório da Diversidade Linguística e Cultural na Internet no âmbito do Instituto Internacional da Língua Portuguesa e com o apoio do Departamento Cultural e Educacional do Ministério das Relações Exteriores do Brasil. Os primeiros resultados estarão disponíveis em maio de 2021 e os produtos completos em agosto de 2021.

O estudo terá algumas melhorias notáveis:
– Utilização do mais recente conjunto de dados globais do Ethnologue para os dados demolinguísticos
– Processamento de falantes de L2 por país em vez de globalmente
– Atualização e expansão dos indicadores de língua e país
– Expansão da cobertura linguística.

Versão 1.2 (2019)

Apresenta uma comparação entre os resultados de 2015, 2016 e 2017, utilizando a versão 2017 do & jogando com os dados da UIT dos anos anteriores.

Notas metodológicas

1 – Apenas os dados da UIT foram actualizados em 2016 e 2017
2- Uma comparação completa exigiria a atualização dos dados demo-linguísticos E dos vários micro-indicadores da presença da língua ou do país
3- No entanto, os dados actualizados têm o maior impacto no modelo e, por conseguinte, fornecem uma indicação credível das tendências
4- É importante compreender que as percentagens de aumento ou diminuição não são absolutas, mas relativas às outras línguas.

Resumo dos resultados

Quanto às línguas mais poderosas, a evolução é lenta, embora haja uma diferença clara entre
– línguas que estão a progredir muito fortemente: hindi e malaio
– línguas que estão a progredir bastante fortemente: coreano, urdu, árabe e português
– línguas que continuam a progredir de forma constante: espanhol e polaco
– línguas em declínio constante: japonês, russo e chinês
– línguas em declínio acentuado: alemão, francês, italiano e, em menor grau, inglês.


Observe-se que o árabe está à frente do japonês e o urdu à frente do polaco e do coreano.

As línguas africanas e asiáticas aparecem nas melhores progressões, seguidas do cabila, do árabe, do turco e do arménio, em forte progressão.
Seguem-se algumas línguas europeias, como o romeno, o ucraniano, o português, o albanês e o espanhol, a meio do intervalo, numa progressão estável.
O polaco é a última língua em progressão fraca e o oposto é verdadeiro para o primeiro declínio moderado do russo e do chinês, seguido do hebraico e do sueco
A maioria das línguas ocidentais apresenta logicamente um declínio relativo como consequência da saturação da taxa de ligação (90% das pessoas ligadas).
O inglês continua em declínio constante e o francês ainda mais, sinal de que a África francófona é lenta na sua luta contra a fratura digital.
No fundo da classificação, forte declínio das línguas locais dos países asiáticos ou africanos (frequentemente francófonos) que continuam presos na fratura digital.

Versão 1.0 (2017)

Início de um novo método para 129 línguas.

Resumo

O observatório mediu o espaço das línguas latinas, do inglês e do alemão na Internet entre 1997 e 2007.

Após 10 anos de eclipse, devido à evolução dos motores de busca, estamos de volta, graças ao apoio da Organisation Internationale de la Francophonie e com MAAYA, com um novo método para produzir indicadores para as 140 línguas de mais de 5 milhões de falantes.

Projetos de OBDILCI

  • Indicadores da presença das línguas na Internet
  • As línguas da França na Internet
  • Francês na Internet
  • Português na Internet
  • Espanhol na Internet
  • IA e multilinguismo
  • DILINET
  • Projetos pré-históricos
  • Projeto Digital Language Death