METODOLOGIA – V3.0 (março de 2022)
Indicadores da presença das línguas na Internet
NOTA: Esta é uma versão arquivada do estudo. Clique aqui para ver a versão mais recente.
Processo metodológico de base – V3.0 (março de 2022)
O modelo utiliza o Ethnologue como fonte de dados demolinguísticos (distribuição de falantes de L1 e L2 por país), e o ITU e o Banco Mundial para dados de conetividade (% de pessoas ligadas à Internet por país) e um grande número de fontes de dados (*) para produzir 5 indicadores:
- Internautas: % de pessoas em linha por língua
- Trafico : % de tráfego por língua (trabalho estatístico baseado nas aplicações de medição de tráfego Alexa e SimilarWeb aplicadas a várias centenas de sítios Web seleccionados) (**)
- Uso: % de utilização da Internet por língua: com base em dados divididos entre assinantes das principais redes sociais, infra-estruturas de conetividade (dados do Banco Mundial), aplicações abertas, streaming e comércio eletrónico (T-Index by Translated).
- Interfaces e línguas de tradução: contabilizar a presença de línguas numa vasta gama de interfaces de aplicações e aplicações de tradução em linha.
- Índice: mede a força dos países em termos de indicadores da sociedade da informação e transforma-os em línguas (24 indicadores diferentes).
A média destes indicadores é considerada uma boa aproximação da percentagem de conteúdos dentro de um intervalo de confiança de -20% +20%.
(*) A maioria das fontes fornece dados por país. Os dados por língua são obtidos ponderando-os com dados demolinguísticos.
(**) A maioria das fontes não abrange todos os países; as técnicas de extrapolação utilizadas são a ponderação por percentagem de pessoas ligadas ou a utilização da abordagem por quartis.
Porque é que a média dos indicadores acima referidos seria uma boa aproximação da percentagem de conteúdo da Web para cada língua?
A forma mais lógica de medir a presença de línguas na Web parece ser aplicar um algoritmo fiável de reconhecimento de línguas a todas as páginas Web existentes e contá-las todas…
Sim… mas a Web é demasiado vasta para que este método seja aplicável na prática e os resultados não fazem sentido por duas razões principais:
- A amostragem que é suposto representar todo o universo é tendenciosa.
- Não ter em conta o multilinguismo
e os resultados são extremamente tendenciosos por estas duas razões.
Isto deixa-nos apenas duas opções:
- Quem utiliza o método lógico deve concentrar-se nos preconceitos e prestar a devida atenção ao multilinguismo.
- Para os outros, utilizar outros métodos.
Justificação do nosso método alternativo
Os dados em que nos podemos basear, devido aos seus enviesamentos muito limitados, são :
- dados demolinguísticos (repartição dos falantes de L1+L2 por país)
- dados sobre as taxas de ligação à Internet (% de pessoas ligadas à Internet por país).
Utilizando estas duas fontes e a hipótese de que todas as línguas têm a mesma taxa de ligação no mesmo país, é possível calcular a taxa de ligação por língua.
Na ausência de outros dados, esta seria uma primeira aproximação justa do conteúdo por língua, uma vez que a experiência tem mostrado que a percentagem de conteúdo parece estar ligada à percentagem de utilizadores por uma espécie de lei económica natural.
Dado que algumas línguas têm um desempenho melhor (ou pior) do que a média em termos de produção de conteúdos, é possível tentar modular os valores acima referidos com base noutros parâmetros indirectos.
É exatamente isso que faz o nosso modelo, que tem em conta factores como o tráfego, a utilização de aplicações, a existência de interfaces ou programas de tradução, o alcance das aplicações da administração pública em linha, os dados abertos e outros atributos da sociedade da informação.
Para além do indicador principal de falantes ligados à Internet, podemos considerar que as línguas, por razões económicas, sociais, culturais, de educação em rede ou outras, geram mais ou menos conteúdos em resultado de :
- mais ou menos tráfego na Internet, por razões de preço, culturais ou educativas,
- mais ou menos subscritores das aplicações mais visitadas
- mais ou menos apoio à sociedade da informação onde vivem os oradores (por exemplo, governo eletrónico)
- a sua ausência (ou presença) em interfaces de aplicações ou programas de tradução.
- e, em geral, o seu nível de apoio tecnológico ao mundo digital, que pode limitar ou favorecer consideravelmente a sua utilização.
Regra geral, os conteúdos são produzidos por falantes de L1, mas os falantes de L2 de uma determinada língua podem também decidir gerar conteúdos por razões económicas (não admira que a produtividade de algumas línguas principais seja tão elevada em comparação com outras!)
É evidente que o método indireto que propomos não substitui a medição real. No entanto, na ausência de tal medição, e no contexto de resultados extremamente tendenciosos de medições incompletas, é uma melhor aproximação, desde que reflicta adequadamente estes vários factores.
O método consiste essencialmente em obter a distribuição de conteúdos por língua como uma modulação da distribuição de falantes ligados por língua, em função de vários parâmetros medidos.
Obviamente, como acontece com qualquer abordagem estatística, todas as proteções precisam de ser expostas, explicadas e analisadas….
Evolução dos enviesamentos nas diferentes versões do método
ELEMENTO | VERSÃO 1 | VERSÃO 2 | VERSÃO 3 |
---|---|---|---|
Fonte linguística | Yoshua (2017) | Ethnologue #24 (2021) Os especialistas podem discordar de alguns dos dados, mas são os melhores dados disponíveis. | Ethnologue #24 (2021) |
Extrapolação L2 | Os resultados da L2 são calculados através da extrapolação dos resultados da L1. Verifica-se um forte enviesamento a favor das línguas mais faladas nos países em desenvolvimento (principalmente o inglês e o francês). | Resuelto Ethnologue proporciona datos en L2 por lo que este sesgo desaparece.. | Idem |
Principal hipótese de ponderação | Todos os falantes de cada país são calculados com a mesma % de conetividade. Ligeiro preconceito contra as línguas europeias nos países em desenvolvimento e a favor das línguas dos imigrantes nos países desenvolvidos. | Idem Na medida em que o modelo não é utilizado para comparar línguas dentro do mesmo país e se limita a falantes com uma população superior a um milhão de habitantes, o enviesamento é aceitável. | Idem Cette hypothèse de travail est la base du modèle car elle permet la plupart des calculs en tant que modulation de la valeur autour du % de personnes connectées par pays. |
Técnicas de extrapolação de fontes | Los sesgos favorecen a los países más conectados, pero los efectos se consideran marginales (sobre todo cuando la fuente cubre más del 70% del total). | Idem | Idem |
Enviesamento da fonte: 0 = totalmente enviesado – 20 = sem qualquer enviesamento
ELEMENTO | VERSÃO 1 | VERSÃO 2 | VERSIÓN 3 |
---|---|---|---|
Internautas | 18 A UIT é uma fonte fiável com actualizações anuais. | 15 A UIT deixou de atualizar as suas estimativas quando os funcionários dos países não forneceram dados. | 19 O Banco Mundial tomou conta dos dados e as actualizações são frequentes |
Tráfego | 13 Alexa é fortemente tendencioso contra as línguas asiáticas e ligeiramente tendencioso a favor das línguas europeias (com exceção do português). O enviesamento da seleção é mais ou menos controlado pela utilização da média truncada em 20%. | 11 O preconceito do Alexa em relação aos países asiáticos parece ter sido ultrapassado, mas um novo preconceito e erro afecta agora os países europeus. | 16 Técnica implementada para anular o viés de seleção. Utiliza uma mistura de resultados do Alexa e do SimilarWeb. Existe ainda um pequeno enviesamento que afecta muitas línguas europeias. (*) Os enviesamentos da ferramenta reflectem-se no resultado chinês, que é desproporcionadamente elevado. |
Uso | 12 Baseado em dados das principais redes sociais. Preconceito em relação a línguas não ocidentais. | 12 Idem | 15 Integração de redes sociais não ocidentais. Algumas melhorias ainda possíveis para a V4. |
Interface | 19 Estes dados são objectivos e a amostragem é grande. | 19 Idem | 19 Idem |
Índices | 15 Es necesario ampliar el muestreo. | 18 El muestreo es casi exhaustivo. | 18 Idem |
Conteúdo | 5 Depende em grande parte das estatísticas da Wikimedia, que são excelentes, mas muito tendenciosas em relação às línguas não ocidentais e favorecem fortemente certas línguas (francês, hebraico, sueco…). | 8 Técnicas utilizadas para controlar as tendências estatísticas da Wikimedia. | Removido Após intensos esforços para incluir todas as enciclopédias em linha para além da Wikipédia, concluiu-se que é melhor remover este indicador das entradas, uma vez que é inerentemente tendencioso. |
(*) A utilização dos sítios Web mais bem classificados prejudica os países com níveis mais elevados de literacia da informação, onde uma maior proporção de tráfego é dirigida para sítios Web que não estão no topo da lista.
Resumo dos preconceitos
O V1 era fortemente preconceituoso em relação às línguas não europeias, e, ao mesmo tempo, tendencioso a favor das poucas línguas europeias com uma forte presença nos países em desenvolvimento com baixas taxas de conetividade (principalmente o inglês e o francês).
A V2 resolveu o segundo principal enviesamento e reduziu o enviesamento negativo associado às línguas não europeias, mas não o suficiente, uma vez que o indicador de entrada conteúdo continua a ser altamente enviesado.
A V3 resolveu o preconceito de conteúdo removendo-o como entrada e eliminou quase todo o preconceito negativo relacionado com as línguas não europeias. Em geral, ainda existe um ligeiro enviesamento negativo relacionado com as línguas europeias, mas o nível de fiabilidade dos resultados melhorou e atingiu um novo limiar de qualidade.
A evolução do método permitiu-nos passar de um forte enviesamento negativo a favor das línguas não europeias para um ligeiro enviesamento negativo a favor das línguas europeias… e um possível enviesamento positivo a favor do chinês devido ao novo processo do indicador de tráfego.
Dito isto, os dados devem ser tomados com cautela, uma vez que só são fiáveis dentro de um intervalo de confiança de –20% +20%, especialmente quando se comparam resultados brutos que se situam dentro deste intervalo (como mostra a pirâmide invertida do conteúdo principal por língua para as 4 línguas na posição 4).
Possíveis melhorias para a versão 4
A produtividade de conteúdos é medida com base em L1+L2. Seria muito útil testar o valor de um outro fator de produtividade de conteúdos com base apenas em L1; como a versão 3 do modelo calcula tudo com base em L1+L2, isso exigiria outra versão do modelo.
O indicador USO pode ainda ser melhorado e os seus enviesamentos reduzidos, centrando-se em :
- A sua componente de transmissão de vídeo, acrescentando outras fontes para além do YouTube e do Netflix .
- A sua componente “dados abertos”, que complementa a fonte única e se centra nas estatísticas relativas aos dados abertos, aos MOOC, etc.
- O enviesamento passou de uma forte tendência para as línguas não europeias para uma fraca tendência para as línguas europeias, o que tem de ser corrigido.
Visualização gráfica da evolução do método de V1 a V3
Article publié sur notre méthodologie
The method behind the unprecedented production of indicators of the presence of languages in the Internet, sept. 2022
Projetos de OBDILCI
- Indicadores da presença das línguas na Internet
- As línguas da França na Internet
- Francês na Internet
- Português na Internet
- Espanhol na Internet
- IA e multilinguismo
- DILINET
- Projetos pré-históricos