PROJECTO PRINCIPAL – MÉTODOS
Compilação /avaliação de todos os métodos identificados
COMPARAÇÃO ENTRE DIFERENTES ABORDAGENS PARA MEDIR A PROPORÇÃO DE LÍNGUAS EM LINHA E O FLASHBACK HISTÓRICO
Se preferir ler offline, pode descarregar o relatório em inglês: Inventário e comparações de todos os métodos para a medição das línguas em linha.
Até à data, foram identificadas cinco abordagens diferentes de empresas, universidades ou organizações da sociedade civil que oferecem, até à data, dados sobre a proporção de línguas em linha. Este documento expõe-nas e tenta tirar conclusões a partir das suas semelhanças, diferenças e possíveis vieses.
Os métodos e números do período inicial, de 1997 a 2007, são apresentados superficialmente no final deste documento. Os pormenores foram expostos e analisados no documento da UNESCO Twelve years of measuring linguistic diversity in the Internet: balance and perspectives, D. Pimienta, D. Prado, A. Blanco- 2009 – .
No final do primeiro período, em 2007, havia provas de que a proporção de inglês na Web já rondava os 50%. Atualmente, todas as evidências convergem para um valor entre 20% e 30%, apesar dos números populares mas tendenciosos que dizem “mais de 50%”…
I – ABORDAGENS ACTUAIS PARA MEDIR AS LÍNGUAS EM LINHA
ABORDAGEM 1: W3TECHS
Fonte: https://w3techs.com/technologies/overview/content_language
Método: Aplicação diária de um algoritmo de deteção de linguagem nos um milhão de sites mais visitados, conforme listagem do TRANCO.
Tipo: Empresa de serviços Internet especializada em inquéritos sobre tecnologia Web
Span: Diariamente desde 2011
Exposed methodology: partial (https://w3techs.com/technologies)
Metodologia revista por pares: não
Discussão de vieses: não
Intervalo de confiança do valor: Não disponível
Número de línguas abrangidas: 40
Nosso diagnóstico: Suspeitamos que atribuem um único idioma por sítio Web, por defeito o inglês, se for um sítio multilingue que inclua o inglês como opção. Isto desencadeia uma forte tendência para favorecer o inglês. Há outros preconceitos a compreender (como extrapolar o milhão mais visitado para toda a Web a favor do inglês e das línguas europeias), mas o principal preconceito de não ter em conta o multilinguismo dos sítios Web pode conduzir a uma sobrevalorização do inglês na ordem dos 100% (ver demonstração em https:/obdilci.org/projects/main/englishweb/ ).
Conclusão: A data produzida diariamente pela W3Techs é a percentagem de inglês, como uma das opções linguísticas de um site, e a percentagem de 40 outras línguas, quando o inglês não é uma das suas opções linguísticas, na série do site pertencente ao milhão de mais visitados. Devido à sua longa história, ao facto de a empresa ser considerada bastante fiável pelos seus inquéritos sobre tecnologias Web, tornou-se, apesar da sua enorme parcialidade, a principal referência sobre o tema das línguas em linha, durante muito tempo, por muitos, incluindo decisores políticos e investigadores, o que constitui um verdadeiro problema de desinformação.
ABORDAGEM 2: DATAPROVIDER.COM
Fonte: https://www.dataprovider.com/blog/domains/what-languages-does-the-web-speak/
Método: Aplicação única de um algoritmo de deteção de linguagem em alegadamente perto de todos os websites existentes (99M sobre 136M websites válidos dos quais os dados estão armazenados na sua base de dados).
Tipo: Empresa de serviços de Internet especializada em análise de dados
Espaço: Uma vez em janeiro de 2023
Metodologia exposta: Não. No entanto, gentilmente responderam a todas as nossas questões o que permite partilhar a seguinte descrição. Eles exploram, usando https://github.com/jmhodges/gocld3 para a deteção (um modelo que identifica um pouco mais de 100 idiomas), todo o universo do site (em 2023, 710 milhões de sites, dos quais 136M foram considerados válidos). Note-se que os seus números são extremamente coerentes com as estatísticas da Netcraft (https://www.netcraft.com/blog/october-2024-web-server-survey/). Em 2023, aplicaram a deteção de línguas a um subconjunto de 99 milhões, o que representa 73% do total, filtrado por país (nessa fase, apenas 62 países foram incluídos, o que representa menos de 30%). Mantêm as informações das várias versões linguísticas, quando especificadas na instrução hreflang= HTML, mas ainda não foram utilizadas nas estatísticas publicadas em 2023, que representam apenas uma, a língua principal dos sítios Web.
Metodologia revista por pares: não
Discussão de viés: Além do mesmo viés de multilinguismo que se aplica aos W3Techs, há um viés resultante dos países excluídos da seleção.
Intervalo de confiança da figura: Não disponível
Número de línguas abrangidas: 107
Nosso diagnóstico: Esta é uma abordagem muito interessante e promissora, uma vez que esta empresa detém uma base de dados com todo o universo de sítios Web (atualmente, 163 M válidos de um total de 856 M) e o potencial para aplicar, parcialmente, a medição que permite ter em consideração o multilinguismo dos sítios Web (parcialmente, porque, de acordo com os nossos estudos, o parâmetro hreflang é utilizado por apenas 40% dos sítios Web multilingues). Nesta fase, os resultados da medição devem ser tomados com a mesma precaução que os da W3Techs. Se não se considerar o viés de seleção do país, os dados podem confirmar que a percentagem global de sítios Web que têm o inglês como uma das versões é comparável, embora ligeiramente inferior, à da amostra Tranco analisada pela W3Techs, o que faz sentido. De facto, é provável que muitas línguas europeias, incluindo o inglês, tenham maior probabilidade de estar entre os sites mais visitados. Esta abordagem deve ser seguida com interesse, pois tem o potencial de melhoria para resultados controlados por viés e graças à transparência da empresa que elogiamos e apreciamos.
Conclusão: Na hipótese de a empresa investir numa nova campanha, desta vez incluindo a informação de uma parte dos sites multilingues, é possível mitigar os 2 vieses remanescentes.
1) o viés de seleção: dada a lista de países que são excluídos, a extrapolação dos dados em falta é possível a partir da combinação da taxa de ligação à Internet por país e falantes por língua em cada país, resultando na percentagem de falantes ligados, para cada língua, excluídos dos dados. O OBDILCI pode fornecer, a partir dessas percentagens, uma correção multiplicativa a aplicar a cada contador de línguas, atenuando assim o enviesamento. Isso obviamente não removerá totalmente o viés para todas as línguas, mas os resultados terão reduzido o viés em grande proporção (note que este método é amplamente utilizado no modelo OBDILCI para completar estatísticas parciais).
2) O viés residual multilíngüe: a partir de nossas estatísticas aproximadas, apenas 40% dos sites multilíngües usam a instrução hreflang para especificar a lista de opções lingüísticas. O facto de não ter em conta 60% dos casos constitui um grande enviesamento. Pode, no entanto, ser drasticamente reduzido se se multiplicar simplesmente todos os contadores de línguas por 100/60 = 5/3, partindo do princípio de que o padrão obtido com 40% se reproduzirá aproximadamente para os restantes. Obviamente, a suposição pode estar errada, mas o resultado será muito menos enviesado com essa correção. Ao fazê-lo, o DATAPROVIDER.COM poderia produzir a melhor aproximação de sempre da medição da proporção de línguas nos conteúdos da Web e, com a mesma lógica, poderia produzir a primeira aproximação séria de sempre de um dado-chave, a taxa de multilinguismo da Web, a comparar com o mesmo valor para os Humanos (a definição deste indicador é: o total de versões linguísticas identificadas dividido pelo total de sítios Web analisados). OBDILCI e DATAPROVIDER.COM planearam discussões no início de 2025 para examinar as possibilidades de cooperação para obter números imparciais.
ABORDAGEM 3: NETSWEEPER
Fonte: https://www.netsweeper.com/government/top-languages-commonly-used-internet
Método: Afirmam aplicar algoritmo de deteção de linguagem em 12 mil milhões de páginas web.
Tipo: Empresa de serviços de Internet especializada em filtragem web para fins de segurança
Espaço: Uma vez em junho de 2023
Metodologia exposta: Não. Nenhuma resposta a várias tentativas de comunicação.
Metodologia revista por pares: não.
Discussão de preconceitos: Não fornecida. Se a alegação fosse confirmada de que eles trabalham em páginas da web em vez de sites, então o viés multilíngüe seria superado. Restaria um único viés a ser analisado no método NETSWEEPER, o viés de seleção. Doze mil milhões de páginas Web podem representar 30% de todo o universo das páginas Web, o que é um número elevado; no entanto, dependendo da forma como a seleção é feita, o enviesamento resultante pode variar entre quase nenhum e grande! Se as páginas forem selecionadas aleatoriamente, o enviesamento é quase nulo. Se a seleção for feita em todos os sítios Web, mas restringindo a seleção a um subconjunto das páginas de cada sítio Web, mais uma vez o desvio pode variar entre nulo ou o mesmo desvio multilingue, se a seleção favorecer as páginas que pertencem à versão inglesa. O facto de calcularem o inglês em cerca de 25% é possivelmente um sinal de que este enviesamento está controlado. No entanto, na ausência de informações sobre o processo, isso permanece indecidível no momento.
Número de línguas abrangidas: 47
O nosso diagnóstico: Se o que se afirma é a realidade, este é um método livre do preconceito multilingue aplicado a uma parte substancial da Web (ninguém sabe realmente o número de páginas Web, mas cerca de 40 mil milhões são dados por https://www.worldwidewebsize.com) e isso representaria 30% do universo. Se o viés de seleção for quase nulo ou atenuado por alguma técnica, este poderia tornar-se o resultado mais promissor sobre o assunto. A coincidência com muitos dos números do OBDILCI é notável e defende um viés de seleção controlado; no entanto, sem mais informações sobre o método, esta permanece uma hipótese.
Conclusão: É uma pena que nunca tenham respondido aos nossos vários pedidos de informação metodológica para o que continua a ser um sério candidato ao melhor método para a proporção linguística em conteúdos web. Utilizámos por duas vezes o formulário de contacto do sítio Web e enviámos diretamente ao CTIO em março de 2024, sem obter qualquer resposta. Esperemos que, no futuro, consigamos obter essa informação e possamos concluir o diagnóstico.
Pessoal da Netsweeper, se por acaso lerem esta página web, por favor contactem-nos.
ABORDAGEM 4: UNIVERSIDADE IONAN GRECIA
Fonte: https://doi.org/10.3390/fi12040076
Método: Centram-se no ccTLD da União Europeia para conteúdos em inglês. Utilizam um algoritmo de deteção de línguas em 100 000 sítios Web. Evitam o enviesamento multilingue, rastreando todas as ligações internas.
Tipo: Departamento Académico de Artes Visuais
Span: Uma vez em junho de 2019
Metodologia exposta: Sim totalmente transparente
Discussão de preconceitos: Não
Intervalo de confiança do valor: Não disponível
Número de línguas abrangidas: 1, inglês
Nosso diagnóstico: Trata-se de uma experiência totalmente fiável, mas limitada aos ccTLD europeus. Pode servir, de qualquer modo, como um possível indicador do alcance da proporção do inglês a nível mundial.
Conclusão: Esta é a primeira incursão bem-vinda, desde há muito tempo, do mundo académico nesta matéria. O estudo tem todos os atributos de robustez de um trabalho académico revisto. No entanto, visa um subconjunto definido da Web e os resultados não podem ser generalizados para toda a Web. De qualquer forma, este é outro argumento para afirmar que a posição estável do W3Techs de inglês acima de 50% desde 2011 é simplesmente absurda. Haverá alguma razão para que a percentagem média de inglês nos sítios Web de ccTLD da União Europeia antes do Brexit (incluindo os países de língua inglesa: Reino Unido, Irlanda e Malta) seja tão inferior à de todo o universo da Web? Não vemos qualquer razão, pelo contrário.
ABORDAGEM 5: MÉTODO PRINCIPAL OBDILCI
Fonte: https://www.obdilci.org/projects/main/
Método: Trata-se de um método indireto baseado na recolha e organização de múltiplos indicadores. Não pode ser realmente considerado como uma medição, é antes uma aproximação realista baseada em algumas suposições e fontes sólidas, um subconjunto das quais implica enviesamentos que são discutidos em pormenor.
Tipo: Organização da Sociedade Civil, a trabalhar no tema desde 1998
Span: Desde 2017, uma ou duas vezes por ano
Metodologia exposta: Sim. Totalmente transparente no artigo revisto por pares https://doi.org/10.3389/frma.2023.1149347
Metodologia revista pelos pares: Sim, ver o URL anterior
Discussão de preconceitos: Sim, muito pormenorizada e abrangente, ver o URL anterior.
Intervalo de confiança do valor: grande, +-20% (estimado, não calculado)
Número de línguas abrangidas: 361
Nosso diagnóstico: Esta abordagem indireta baseia-se em dados sólidos sobre o número de falantes de L1 e L2 de cada língua por país (Ethnologue), a percentagem de pessoas ligadas por país (ITU), o pressuposto de que existe uma lei económica natural que liga a procura (falantes de uma língua ligados) e a oferta (conteúdos para essa língua), cuja modularidade depende de um vasto conjunto de factores que foram representados pelo maior conjunto possível de indicadores fiáveis (tráfego, subscrições, presença de línguas em interfaces e ferramentas, preparação para a sociedade da informação…). Há um pressuposto de simplificação (todos os falantes de línguas conectados do mesmo país partilham a mesma percentagem de conetividade) que é o principal preconceito e a razão pela qual o modelo se limita a uma grande população de falantes (L1 > 1M). Não se trata de uma medida, mas sim de uma plausibilidade sólida para números dentro de um grande intervalo de confiança e, até que outro método seja validado como controlado por viés, continua a ser uma aproximação séria, cobrindo muito mais línguas do que os outros métodos.
Conclusão: As mentes interessadas e críticas poderiam genuinamente perguntar: como é que um tal método se aproxima da realidade apenas pela média de muitos indicadores? Sabendo que se baseia numa hipótese muito teórica (a existência de uma lei desconhecida que liga os internautas por língua e os conteúdos da Web por língua), poderia esta lei desconhecida ser descrita indiretamente de modo a permitir números aproximados, mas fiáveis, através da recolha de vários indicadores e do seu processamento estatístico utilizando principalmente operações de ponderação?
Gostaríamos de dar uma resposta intuitiva a esta pergunta razoável. Uma das mais impressionantes aulas de matemática recebidas no pré-Doutoramento convidou os alunos a criar a equação de uma onda que chega à costa numa praia. A física é muito complexa, mas o professor afirmou que os alunos não precisavam de saber nada de física para obter uma equação aproximada mas relevante! Porquê? A dimensão da altura da onda que chega à costa é o resultado da ondulação que atinge uma profundidade progressivamente reduzida. Basta enumerar todos os parâmetros envolvidos: período da ondulação, altura da ondulação, curva da profundidade da costa… e combiná-los de forma a serem coerentes com a sua dimensão (distância em metros, altura em metros, velocidade em metros por segundo, período em segundos, etc.). Crie a equação mais simples possível em que a dimensão resultante seja compatível com o resultado, a altura da onda é um dado em metro, pelo que tem de ser a combinação matemática dos factores. A equação que obtém tem todas as probabilidades de ser uma primeira representação da realidade. E funciona de facto! Mais informações sobre esta técnica em https://en.wikipedia.org/wiki/Dimensional_analysis.
Aqui estamos num contexto diferente, não se trata de física complexa mas de grandes dados e estatísticas. Num mundo ideal, todas as línguas são iguais e a lei é linear: em termos de percentagens mundiais, há tantos conteúdos como falantes em cada língua. O rácio a que chamamos produtividade dos conteúdos (percentagem de conteúdos dividida pela percentagem de falantes ligados) é igual a um para cada língua, é uma equação linear. Obtemos esses dados lineares ponderando a matriz de falantes (línguas vs países) com o vetor de conetividade (percentagem de conectados por país). Depois, a realidade é que muitos factores modulam este rácio para cima ou para baixo de 1, dependendo da língua: falantes de línguas e país onde acedem aos conteúdos: tarifas, largura de banda, educação digital, aplicações governamentais electrónicas, ambiente empresarial, capacidades tecnológicas da língua, presença nas principais aplicações, etc. Se conseguir obter indicadores de todos estes parâmetros, há uma boa hipótese, se apenas forem processados grandes volumes de dados (línguas com um grande número de falantes), de a sua “equação estatística criada” ser uma aproximação razoável. Note-se que uma grande parte dos factores depende mais dos países do que das línguas, mas a existência da matriz de línguas por país permite jogar o jogo, fornecendo algumas simplificações, que certamente acarretam enviesamentos, mas esses enviesamentos podem tornar-se marginais com grandes números.
Obviamente, se os resultados do modelo OBDILCI pudessem ser confirmados por algumas medições de dados reais, desde que controlados por enviesamentos, isso aumentaria a confiança…
ABORDAGEM 6: MECILDI PRÉ-ESTUDOS
Fonte: https://obdilci.org
Método: Trata-se de um trabalho manual aplicado a uma série de dez vezes 100 sítios retirados aleatoriamente da lista TRANCO. Verificámos manualmente todas as línguas de cada site e a forma como as opções linguísticas são implementadas, tanto na interface como na fonte HTML, a fim de estudar a estratégia e as tácticas para poder ter em conta, no futuro, uma abordagem de exploração baseada na deteção de línguas (ver abordagem 6). Aproveitámos a oportunidade para aproximar um indicador-chave totalmente desconhecido nesta fase: a taxa de multilinguismo da Web, definida pelo número total de versões linguísticas dividido pelo número total de sítios Web (a mesma taxa para toda a humanidade é medida em 1,443, segundo a fonte Ethnologue, e esperamos que a Web tenha um valor superior). Este valor é a chave para avaliar a dimensão do preconceito de não considerar o multilinguismo da Web: por exemplo, se o seu valor for 2, então o preconceito é 100% de sobrevalorização da proporção do inglês. As primeiras aproximações na exploração manual de 1000 sítios Web aleatórios da lista Tranco são de cerca de 2 (com grande variação, pelo que este valor deve ser considerado com precaução).
Tipo: Organização da Sociedade Civil
Span: Duas vezes em 2022 e 2024
Metodologia exposta: Sim. Totalmente transparente.
Metodologia revista por pares: Sim em https://doi.org/10.30564/fls.v6i5.7144
Discussão de vieses: Sim
Intervalo de confiança do valor: não
Número de línguas abrangidas: Apenas inglês
Nosso diagnóstico: Trata-se apenas de uma entrada intermediária criada pela exploração humana de um subconjunto limitado da Web como uma indicação de tendência anotada com média e covariância. Isto faz parte do projeto MECILDI.
Fonte: https://obdilci.org
ABORDAGEM 7 : MECILDI@OBDILCII
Método: OBDILCI planeia criar uma nova ferramenta em 2025, um software para permitir a deteção de línguas numa série de websites, tendo em conta de forma sistemática o facto de os websites poderem ser multilingues. Esta ferramenta servirá vários projectos e será testada primeiro utilizando a lista Tranco. Foram iniciados estudos prévios para determinar as estratégias e tácticas que tendem a refletir completamente as línguas dos sítios multilingues. Trata-se de um problema complexo devido à variedade de soluções implementadas nos sítios Web, muitas das quais não se reflectem diretamente no código-fonte visível. Os pré-estudos permitiram determinar algumas estatísticas e dados aproximados que serão úteis para a atenuação de preconceitos: percentagem de sítios Web que utilizam instruções lang=, percentagem de sítios Web que utilizam instruções hreflang=, percentagem de sítios Web que utilizam o GoogleTranslate incorporado, percentagens de disposição das opções de língua na interface (em cima, ao lado, em baixo, indiretamente por opção de país, numa página de configuração), padrões de codificação utilizados para o multilinguismo… A complexidade implica uma combinação de técnicas e abordagens, incluindo provavelmente alguma IA. Dado que a nossa capacidade informática é limitada, optámos por uma abordagem estatística: em vez de analisar todos os sítios Web, criaremos 100 amostras aleatórias de 1000 sítios Web e geriremos a distribuição estatística dos resultados para obter a média, a variância e o intervalo de confiança para cada língua e os restantes parâmetros.
Tipo: Organização da Sociedade Civil
Espaço: Futuro (2025)
Metodologia exposta: Será
Metodologia revista por pares: Será.
Discussão de vieses: Será
Intervalo de confiança do valor: Será calculado por método estatístico
Número de línguas abrangidas: 141, as línguas que estão presentes tanto no modelo Obdilci como no GoogleTranslate. Por outras palavras, o subconjunto de línguas do 250 GoogleTranslate que tem mais de um milhão de falantes de L1. Porquê? Porque, para as línguas com um número reduzido de falantes, a abordagem estatística escolhida não forneceria resultados sérios.
O nosso diagnóstico: Trata-se de um projeto a realizar em 2025, abrindo caminho a novas investigações.
II – COMPARAÇÕES DE RESULTADOS PARA O INGLÊS
W3Techs 1/23 | DATA PROVIDER 1/23 | NET SWEEPER 6/23 | IONAN Univ. 2020 | OBDILCI Main 5/2023 | MECILDI Pre-study 5/2024 | |
English | 57.7% | 51% | 26.3% | 28.4% | 20% | 29% |
COMPARAÇÃO DAS PRIMEIRAS LÍNGUAS
W3TECHS 11/2024 | DATA PROVIDER 1/23 | NETSWEEPER 6/23 | OBDILCI 5/2024 | |
1 | English 49.4% | English 51.3% | English 26.3% | English 20.4% |
2 | Spanish 6% | Chinese 10.”% | Chinese 19.8% | Chinese 18.9% |
3 | German 5.6% | German 7.3% | Spanish 8.1% | Spanish 7.7% |
4 | Japanese 5% | Spanish 3.9% | Arabic 5% | Hindi 3.8% |
5 | French 4.4% | Japanese 3.7% | Portuguese 4% | Russian 3.7% |
6 | Russian 4% | French 3.4% | Malay 3.4% | Arabic 3.7% |
7 | Portuguese 3.8% | Russian 2.8% | French 3.3% | French 3.4% |
8 | Italian 2.7% | Portuguese 2.7% | Japanese 3% | Portuguese 3.1% |
9 | Dutch 2.1% | Dutch 2.0% | Russian 2.8% | Japanese 2.2% |
10 | Polish 1.8% | Italian 1.9% | German 2.1% | German 2.2% |
11 | Turkish | Korean | Malay | |
12 | Persian | Turkish | Bengali | |
13 | Chinese | Italian | Turkish | |
14 | Vietnamese | Romanian | Italian | |
15 | Malay | Persian | Vietnamese |
O QUE É QUE ESSAS COMPARAÇÕES NOS DIZEM?
- Cuidado é altamente recomendado ao ler números sobre a percentagem de línguas na Web, especialmente quando se refere ao inglês, uma vez que não há concordância entre os diferentes resultados.
- Parecem surgir duas versões diferentes da percentagem de inglês: uma cerca de 50% e outra cerca de 25%. Seria esse o problema da sobrestimação de 100% devido à não consideração da propriedade multilingue de muitos sítios Web e explicada na ligação mencionada? Sim! O facto de o DATAPROVIDER.COM ter exposto números em 2023 que ainda não utilizavam os dados multilingues que recolheram valida essa hipótese.
- Todos estes resultados convergem para uma elevada probabilidade de que a percentagem de inglês em toda a Web, prestando a devida atenção ao multilinguismo dos sítios Web, seja de cerca de 25%. Consulte https://www.obdilci.org/projects/main/englishweb/ se quiser perceber porquê.
- Por que é que o chinês é tão baixo na W3Techs? Os resultados reclamados pela W3Techs para o Chinês, menos de 2%, sabendo que é a primeira língua da Internet em termos de utilizadores, não é absolutamente credível, como já informámos em várias publicações. Onde está o valor real entre 10% e 20%? Como o chinês é provavelmente utilizado em muitos sítios bilingues (chinês, inglês), a mesma regra pode aplicar-se e os números do DATAPROVIDER.COM podem ter de ser multiplicados por 2 e teríamos um consenso sobre 20%. Durante os pré-estudos do MECILDI, descobrimos que uma elevada proporção de sítios chineses (50% na nossa amostragem!) define o parâmetro lang= para inglês em vez de chinês. Poderá ser essa a explicação para o erro nos W3Techs? Utilizar esse parâmetro, quando está especificado, em vez de aplicar a deteção de idioma, parece, à primeira vista, uma decisão válida para poupar recursos da CPU.
- Até agora, o Netsweeper pode ser considerado como o resultado mais fiável, uma vez que o seu método que visa páginas Web em vez de sítios Web evita o viés do multilinguismo e afirma cobrir 12 mil milhões de páginas Web, um número que pode representar 30% do universo de páginas Web, seguindo a estimativa de https://www.worldwidewebsize.com. Infelizmente, não responderam aos nossos muitos pedidos de informação. A hipótese de que exploram uma grande parte do universo das páginas Web é plausível e necessitaria de confirmação; de qualquer modo, sem mais informações, a questão do viés de seleção permanece indecidível. As principais diferenças dizem respeito às línguas da Índia (hindi, bengali, urdu), cuja presença nos conteúdos poderia ser sobrestimada pelo Obdilci ou subestimada pelo Netsweeper. Este ponto merece atenção dada a importância da Índia em termos demográficos. Com base num estudo sólido realizado em 2017 pela KPMG, cuja conclusão é que os internautas indianos tendem a utilizar cada vez mais as suas línguas locais para navegar, mantemos os nossos números, mas precisamos de investigar por que razão o número de páginas Web é tão subestimado pelas outras abordagens.
- É interessante comparar as previsões do OBDILCI com as medições do DATAPROVIDER.COM para línguas com baixo nível de conteúdos. Notámos algumas coincidências extremas (galego e basco), bem como alguns números extremamente remotos (africâner, crioulo haitiano, irlandês e línguas indianas). O viés de seleção de países poderá ser uma explicação a investigar.
III INICIATIVAS DO PRIMEIRO PERÍODO (1996-2011)
Pode ser interessante destacar as abordagens que foram desenvolvidas no período anterior da Web, de 1998 a 2011. Para mais informações, leia o seguinte artigo que cobre em mais pormenor esse período: “Doze anos de medição da diversidade linguística na Internet: balanço e perspectivas.“; D. Pimienta, D. Prado, A. Blanco, UNESCO CL/2009/WS1 – (em inglês)
Vamos apenas mencionar superficialmente cada projeto; por ordem cronológica.
Xerox Study (1996-2000)
Método: Abordagem linguística baseada na ocorrência de palavras frequentes no corpus.
Fonte: Grefenstette,G.; Noche, J. Estimation of English and non-English Language used on the WWW. Technical Report from Xerox Research Center Europe, 2000. https://arxiv.org/abs/cs/0006032
Span: Método de tiro único não replicado. Foi a primeira tentativa histórica.
Discussão: Oferecer poucas percentagens de línguas em relação ao inglês.
OBDILCI/Funredes (1998-2007)
Método: Utilizar a capacidade, fiável neste momento, dos Motores de Busca para reportar o número de ocorrências de uma cadeia de caracteres no conjunto das páginas web indexadas. Utilizar um vocabulário comparativo selecionado com extremo cuidado de correspondência sintáctica e semântica e de análise de preconceitos para um conjunto selecionado de línguas: inglês, francês, espanhol, italiano, português, catalão, romeno e alemão. Utilizar técnicas estatísticas para obter resultados em termos de percentagem de cada língua em relação ao inglês. A percentagem de inglês é então aproximada por várias técnicas.
Fonte: Site histórico do Observatório https://funredes.org/lc/english/inicio/
Discussão: A evolução dos motores de busca, fazendo com que, depois de 2007, esses números se tornassem totalmente não fiáveis, assinou o fim desse método (e de muitos outros projectos em todo o mundo que fazem uso dessa capacidade excecional de contar palavras ou expressões na Web). A OBDILCI/Funredes prosseguiu a sua missão até 2017, altura em que a Funredes cessou as suas actividades, com contributos no terreno sobretudo para o francês e o espanhol, e a procura de uma nova abordagem, que surgiu em 2012, a partir das ideias de Daniel Prado de medir através de uma grande coleção de indicadores e de transformar os indicadores dos países em indicadores linguísticos através do cruzamento com dados demo-linguísticos. Este novo método amadureceu em 2017 e foi controlado em 2022.
Discussão: A evolução dos motores de busca, fazendo com que, depois de 2007, esses números se tornassem totalmente não fiáveis, assinou o fim desse método (e de muitos outros projectos em todo o mundo que fazem uso dessa capacidade excecional de contar palavras ou expressões na Web). A OBDILCI/Funredes prosseguiu a sua missão até 2017, altura em que a Funredes cessou as suas actividades, com contributos no terreno sobretudo para o francês e o espanhol, e a procura de uma nova abordagem, que surgiu em 2012, a partir das ideias de Daniel Prado de medir através de uma grande coleção de indicadores e de transformar os indicadores dos países em indicadores linguísticos através do cruzamento com dados demo-linguísticos. Este novo método amadureceu em 2017 e foi controlado em 2022.
ISOC Quebec/Alis Technologies, seguido pela OCLC (1997, 1999, 2002)
Método: Uma série de sítios Web é obtida através da geração aleatória de 8000 números IP. Um algoritmo de deteção de linguagem é aplicado a esta série e as percentagens são calculadas. Este método não é estatisticamente válido, uma vez que o requisito estatístico para obter resultados fiáveis é evitar uma única tentativa e efetuar várias execuções, digamos 100 vezes a mesma operação, e aplicar leis estatísticas à distribuição obtida (média, variância, intervalo de confiança). Este método foi repetido de forma idêntica duas vezes, em 1999 e 2002, com a mesma falha. As três medições forneceram a mesma pontuação de 80%, estável durante 5 anos, o que, com um bom marketing, alimentou a desinformação durante o período e até que as publicações da UNESCO fizeram com que os media mudassem para o valor de 50%.
Espaço: Três disparos únicos em 1997, 1999 e 2002.
Sources: https://web.archive.org/web/20010810234537/http://alis.isoc.org/palmares.en.html https://www.researchgate.net/publication/271903988_How_World_Wide_Is_the_Web https://www.dlib.org/dlib/april03/lavoie/04lavoie.html
INKTOMI (2000)
Um motor de busca, INKTOMI, anunciou com grande força de marketing, as suas medições de línguas na Web em 2000. Apresentava as 10 primeiras línguas, com o inglês a liderar com 86%. Um grande pormenor que poucos observadores pareciam notar: o total da percentagem era de 100%, para além do facto de muitas outras línguas terem ficado de fora! Faltava a mais elementar seriedade matemática…
Google: Método do complemento de um espaço vazio (1988-2008)
É assim que designamos uma facilidade descoberta por acaso em março de 1998, com o AltaVista, e que o Google replicou, que servia para conhecer a dimensão, por língua, do índice do Motor de Busca, nessa altura. Ao fazer um pedido ao motor de busca do tipo ” -ggfdgfdyugfgvdgdv” em que o primeiro termo é vazio e o segundo uma cadeia de caracteres que não aparecem em nenhuma página web, o número de ocorrências resultante era o número total de páginas web. Se primeiro fosse definida uma língua, a resposta era o número de páginas nessa língua. O valor dado pelo Google com esse método era da mesma ordem que o nosso método na altura, perto de 51% para o inglês em 2008, e o chinês já rondava os 9%, um valor que a W3Techs fixou em menos de 2% atualmente. Na altura, foram feitas várias publicações que fingiam ter calculado as páginas Web por língua e que simplesmente copiavam os resultados desse método simples sem indicar a fonte.
Language Observatory Project – LOP (2003-2011)
Method: Application of language detection on portion of the Web, typically ccTLD of countries where local languages were the target. This project, a consortium of universities leaded by Nagaoka University, holds all the hope to finally see this important subject located where it deserves, in the research community within a concept of consortium. The common membership of Funredes/Obdilci and LOP in the MAAYA network (World Network of Linguistic Diversity) was furthermore a promise of fruitful cooperation. This cooperation strengthened in late 2010 when Funredes was given by LOP the data for exploration of Latin America ccTLD and close interaction to assess the material, however the catastrophic Tsunami occurring in 2011 in Japan provoked, among other drama, the brutal end of this promising project.
Sources: https://dl.acm.org/doi/10.1145/1062745.1062833 https://en.wikipedia.org/wiki/Language_observatory
UPC/IDESCAT (2003-2006)
A Universitat Politecnica de Catalunya, em colaboração com o Instituto de Estatística da Catalunha, organizou uma base de dados de 2 milhões de sítios Web para verificar a presença do catalão através da deteção linguística e apresentou resultados bastante próximos dos de Funredes/Odilci em 2005 e não tão próximos em 2006.
Fonte: https://raco.cat/index.php/LlenguaUs/article/view/128275/177480
IV Uma curva plausível da evolução dos conteúdos ingleses em linha
Para concluir, apresentamos uma curva bastante plausível da evolução da proporção de inglês online.
Extraído da publicação francesa "Une histoire très brève de l'observation des langues dans l'Internet" in Culture et Recherche, No. 143, AUTUMN-WINTER 2022,La recherche culturelle à l'international, página 128-131.
Image Source : https://www.obdilci.org/wp-content/uploads/2024/04/EnglishWeb.jpg
Projetos de OBDILCI
- Indicadores da presença das línguas na Internet
- As línguas da França na Internet
- Francês na Internet
- Português na Internet
- Espanhol na Internet
- IA e multilinguismo
- DILINET
- Projetos pré-históricos
- Projeto Digital Language Death