PROJETO PRINCIPAL

Indicadores da presença das línguas na Internet

Resumo do projeto

Até há pouco tempo, a fonte mais consultada de estatísticas relacionadas com a utilização das línguas em linha baseava-se em algoritmos para analisar os sítios Web classificados como os mais visitados. Embora estas estatísticas ofereçam perspectivas interessantes, podem não refletir com exatidão a presença das línguas na Web devido à falta de consideração da natureza frequentemente muito multilingue dos sítios Web, o que provoca enviesamentos significativos.

Em 2017, o Observatório da Diversidade Linguística e Cultural na Internet concebeu uma nova abordagem que pode ajudar a acompanhar melhor o progresso e a prevalência das línguas em linha. Graças a esta abordagem, foi possível identificar indicadores significativos que descrevem a presença de 343 línguas na Internet.

Destaques dos últimos resultados

ISOLínguas% INTERNAUTAS% FALANTES
L1+L2
% FALANTES
CONECTADOS
% CONTEÚDOPRESENÇA
VIRTUAL
PRODUCTIVIDADE
DE CONTEÚDO
engEnglish15,79%14,13%70,86%20,42%1,451,29
zhoChino Macro17,41%14,48%76,27%18,88%1,301,08
spaEspanhol6,62%5,22%80,46%7,70%1,481,16
hinHindi4,34%5,68%48,48%3,82%0,670,88
rusRusso3,28%2,38%87,42%3,73%1,571,14
araMacro árabe4,37%4,08%67,81%3,65%0,890,84
fraFrancês3,05%2,91%66,58%3,41%1,181,12
porPortuguês2,89%2,46%74,42%3,09%1,251,07
jpnJaponês1,54%1,15%84,98%2,20%1,911,42
deuAlemão, Standard1,80%1,25%91,21%2,15%1,721,20

Resultados finais – Última atualização: abril de 2024 (V5.1)

Está surpreendido por ver que a percentagem de conteúdos em inglês é de cerca de 20%?

Se assim for, e se tiver curiosidade em compreender esta questão, consulte:

Metodologia

A nova abordagem do observatório consiste em aproximar indiretamente a quantidade relativa de conteúdos Web por língua. Ao fazê-lo, tem também em conta factores cruciais que são frequentemente ignorados quando se descreve a presença de uma língua na Internet, mas que devem ser tidos em conta para evitar erros ou preconceitos.

Em primeiro lugar, a equipa estuda a possível existência de uma “lei económica” da comunicação em linha, que associa a oferta (ou seja, o conteúdo da Web disponível numa língua) à procura (ou seja, o número de falantes dessa língua ligados à Internet). Os resultados acima sugerem que quanto mais falantes de uma determinada língua estiverem ligados à Internet, mais páginas Web nessa língua tendem a existir.

Além disso, estudos anteriores sugerem que os utilizadores da Internet preferem muitas vezes comunicar na sua língua materna quando há conteúdos disponíveis nessa língua, mas contentam-se em utilizar a(s) sua(s) segunda(s) língua(s) na ausência de tais conteúdos. Em alguns casos, os utilizadores da Internet podem também criar conteúdos na(s) sua(s) segunda(s) língua(s) por razões económicas e utilizar serviços de tradução para o fazer.

A presença de uma língua na Internet está também relacionada com a quantidade de tráfego na Internet em diferentes sítios, o número de subscrições de redes sociais e o progresso dos diferentes países em termos de serviços relacionados com a Internet para os cidadãos. Os indicadores de presença na Internet desenvolvidos pelos investigadores têm coletivamente em conta todos estes factores, dando uma imagem mais detalhada da medida em que e como as diferentes línguas existem em linha.

Cibergeografia das famílias linguísticas

Análise da evolução linguística da língua numa perspetiva geográfica.

Índice de Ciber-Globalização (CGI)

O índice de ciberglobalização é um indicador estratégico do futuro de uma língua na Internet. É definido como :

CGI (L) = (L1 + L2)/L1(L) x S(L) x C(L) em que

(L1+L2)/L1 (L) é a taxa de multilinguismo da língua L

S(L) é a percentagem de países com falantes da língua L

C(L) é a percentagem de falantes da língua L ligados à Internet

CRONOLOGIA DOS LANÇAMENTOS E NOTAS ASSOCIADAS

Se quiser ter uma ideia melhor do método sem ler os artigos publicados e independentemente dos números mais recentes, consulte a versão 3.0, na qual foram feitos alguns esforços para explicar e visualizar os resultados.

Versão 5.1 (abril de 2024)

Atualizado nesta versão

1) Ethnologue Dataset #27 of March 2024 has been used for demolinguistic figures. The Digital Support Indicator provided by Ethnologue as part of this database has also been updated. The ITU figures of percentage of individuals connected to the Internet per country have been updated.

2) 19 new languages reaching the threshold of 1M L1 speakers have then been added to the model for a new total of 361 languages:

Malaio ambonês abs
Bulu bum
Bangala bxg
Efique efi
Basca eus
Gbaya gba
Irlandês gle
Pidgin ghanês gpe
Iban iba
Krio kri
Inglês da Libéria lir
Crioulo de base malaia mfp
Baixo saxão nds
Malais da Nova Guiné pmy
Crioulo da Guiné-Bissau pov
Arracanesa rki
Sango sag
Scots sco
Tok Pisin tpi

3) As alterações nos resultados do modelo são poucas.

  • Em termos de conteúdos, o inglês consolida ligeiramente a sua primeira posição em relação ao chinês.
  • O hindi assume a liderança das línguas na 4ª posição, deixando o árabe para trás do russo e à frente do francês e do português.

Versão 4.0 (maio de 2023)

Actualizações da metodologia nesta versão

1) Na integração dos dados do Ethnologue, o árabe padrão (arb) não foi computado como uma segunda L1 para todos os países envolvidos, exceto a Arábia Saudita. A razão é que um dos princípios fundamentais do modelo é que existe apenas uma L1 para cada língua e que a macro-língua ara não pode incluir a mesma população L2 duas vezes.

2) Relativamente à inclusão do Indicador de Suporte Digital (DLS) da fonte Assessing Digital Language Support on a Global Scale, o indicador é definido para cada língua. Isto levanta a questão de como gerir as macro-línguas. A decisão tomada foi a de atribuir a cada macro-língua o indicador mais elevado do conjunto de línguas pertencentes a essa macro-língua.

3) O indicador interface no modelo é agora calculado como metade da soma do indicador anterior mais DLS (que tem um valor entre 0 e 1) e recalculando os resultados para normalizar a 100%. Esta adição reduz o enviesamento desse indicador, aumentando potencialmente o peso de muitas línguas que não estavam presentes nas interfaces de aplicação ou no software de tradução e que tinham peso zero. Para as restantes línguas, não induz qualquer alteração percetível.

Versão 3.2 (abril de 2023)

Atualização dos dados da UIT sobre a percentagem de pessoas ligadas por país

Resumo

  • A percentagem de pessoas ligadas em todo o mundo aumentou de 64% para 67% num ano.
  • A UIT aceitou a proposta de estimativas nos países em que o governo não propõe dados oficiais.
  • Muitas alterações importantes nos dados de conetividade por país, com alguns fortes crescimentos ou declínios.
  • Praticamente inalterado para as primeiras línguas
  • O forte crescimento da conetividade em África faz com que o número de línguas africanas aumente para mais de 10%.
  • Começam a aparecer sinais de progresso para os menos conectados: o francês está a progredir graças a África, juntamente com as línguas africanas; as línguas asiáticas continuam a progredir, exceto o chinês.
  • O crescimento árabe está a parar
Versão 3.1 (agosto de 2022)

O Banco Mundial actualizou a percentagem de pessoas ligadas por país). Inclui comparação com a V3.c

Versão 3.c (agosto de 2022)

Correção de um erro na V3, com impacto marginal

Versão 3.0 (março de 2022)

Reformulação do modelo, até se chegar à versão final, com todos os vieses controlados.

Resumo

Mais do que uma nova versão, trata-se da maturidade do método, uma vez que todos os enviesamentos estão agora controlados para um limiar aceitável e os indicadores produzidos são fiáveis, com um intervalo de confiança de ±20%.

Um intervalo de confiança de ±20% pode parecer amplo para os padrões de outros trabalhos estatísticos, mas para dados sobre o espaço linguístico na Internet, um assunto que sempre foi muito difícil de alcançar e propenso a desinformação crónica, isto é um feito.

Todos os resultados estão disponíveis sob licença CC-BY-SA 4.0.

Versão 2.0 (2021)

O modelo melhora o controlo das tendências, permitindo alcançar 329 línguas

Resumo

Fevereiro de 2021 marca o início de um projeto de medição do português na Internet e comparação com outras línguas, coordenado pela Cadeira da UNESCO em políticas públicas de multilinguismo, realizado pelo Observatório da Diversidade Linguística e Cultural na Internet no âmbito do Instituto Internacional da Língua Portuguesa e com o apoio do Departamento Cultural e Educacional do Ministério das Relações Exteriores do Brasil. Os primeiros resultados estarão disponíveis em maio de 2021 e os produtos completos em agosto de 2021.

O estudo terá algumas melhorias notáveis:
– Utilização do mais recente conjunto de dados globais do Ethnologue para os dados demolinguísticos
– Processamento de falantes de L2 por país em vez de globalmente
– Atualização e expansão dos indicadores de língua e país
– Expansão da cobertura linguística.

Versão 1.2 (2019)

Apresenta uma comparação entre os resultados de 2015, 2016 e 2017, utilizando a versão 2017 do & jogando com os dados da UIT dos anos anteriores.

Notas metodológicas

1 – Apenas os dados da UIT foram actualizados em 2016 e 2017
2- Uma comparação completa exigiria a atualização dos dados demo-linguísticos E dos vários micro-indicadores da presença da língua ou do país
3- No entanto, os dados actualizados têm o maior impacto no modelo e, por conseguinte, fornecem uma indicação credível das tendências
4- É importante compreender que as percentagens de aumento ou diminuição não são absolutas, mas relativas às outras línguas.

Resumo dos resultados

Quanto às línguas mais poderosas, a evolução é lenta, embora haja uma diferença clara entre
– línguas que estão a progredir muito fortemente: hindi e malaio
– línguas que estão a progredir bastante fortemente: coreano, urdu, árabe e português
– línguas que continuam a progredir de forma constante: espanhol e polaco
– línguas em declínio constante: japonês, russo e chinês
– línguas em declínio acentuado: alemão, francês, italiano e, em menor grau, inglês.


Observe-se que o árabe está à frente do japonês e o urdu à frente do polaco e do coreano.

As línguas africanas e asiáticas aparecem nas melhores progressões, seguidas do cabila, do árabe, do turco e do arménio, em forte progressão.
Seguem-se algumas línguas europeias, como o romeno, o ucraniano, o português, o albanês e o espanhol, a meio do intervalo, numa progressão estável.
O polaco é a última língua em progressão fraca e o oposto é verdadeiro para o primeiro declínio moderado do russo e do chinês, seguido do hebraico e do sueco
A maioria das línguas ocidentais apresenta logicamente um declínio relativo como consequência da saturação da taxa de ligação (90% das pessoas ligadas).
O inglês continua em declínio constante e o francês ainda mais, sinal de que a África francófona é lenta na sua luta contra a fratura digital.
No fundo da classificação, forte declínio das línguas locais dos países asiáticos ou africanos (frequentemente francófonos) que continuam presos na fratura digital.

Versão 1.0 (2017)

Início de um novo método para 129 línguas.

Resumo

O observatório mediu o espaço das línguas latinas, do inglês e do alemão na Internet entre 1997 e 2007.

Após 10 anos de eclipse, devido à evolução dos motores de busca, estamos de volta, graças ao apoio da Organisation Internationale de la Francophonie e com MAAYA, com um novo método para produzir indicadores para as 140 línguas de mais de 5 milhões de falantes.

Projetos de OBDILCI

  • Indicadores da presença das línguas na Internet
  • As línguas da França na Internet
  • Francês na Internet
  • Português na Internet
  • Espanhol na Internet
  • IA e multilinguismo
  • DILINET
  • Projetos pré-históricos