PROJETO PRINCIPAL-INGLES@WEB- W3TECHS

Vies do multilinguismo da W3Techs

Vies do multilinguismo da W3Techs

Imaginemos que a Web é composta por 5 sítios Web (W1 a W5), num total de 62 páginas Web, e que existem apenas 3 línguas: inglês, francês e espanhol.

Suponhamos as seguintes composições linguísticas das 62 páginas da Web, tal como são apresentadas nesta tabela:

PÁGINAS WEBW1W2W3W4W5TOTAL%
Inglês10510002540.32%
Espanhol00100102032.26%
Francês0510201727.42%
TOTAL10103021062100%

Por outras palavras, temos:

  • W1: um sítio Web com 10 páginas em inglês
  • W2: um sítio Web com 5 páginas em inglês e 5 páginas em francês
  • W3: um sítio Web com 10 páginas em cada língua
  • W4: um sítio Web com 2 páginas em francês
  • W5: um sítio Web com 10 páginas em espanhol

O que torna :

  • 25 páginas em inglês
  • 20 páginas em espanhol
  • 17 páginas em francês
  • num total de 62 páginas;

Por conseguinte, as percentagens correctas de línguas na Web são:

  • Inglês = 25/62 = 40,32%
  • Espanhol = 20/62 = 32,26%
  • Francês = 17/62 = 27,42%

Se não formos capazes de calcular por páginas Web e o fizermos por sítios Web, tendo em devida conta o multilinguismo dos sítios Web, os resultados correctos serão obtidos dividindo o número de sítios Web numa determinada língua pelo número total de versões linguísticas dos sítios Web. A tabela é então a seguinte:

PÁGINAS WEBW1W2W3W4W5WEBSITES NESTA LÍNGUA% POR LÍNGUA
Inglês10510 337.50%
Espanhol  1010225.00%
Francês 5102337.50%
Versões linguísticas123118100%

E os resultados são:

  • Inglês = 3/8 = 37,5%
  • Espanhol = 2/8 = 25%
  • Francês = 3/8 = 37,5%

É evidente que este método não fornece a resposta correcta, mas apenas uma aproximação, uma vez que favorece as línguas pertencentes a sítios Web com menos páginas, neste caso o francês. Observe que, com a enorme quantidade de espaço real da Web, esse viés provavelmente não é tão importante.

Agora, se, tal como a W3Techs, não tivermos em conta o multilinguismo e a nossa língua predefinida for o inglês, utilizaremos esta tabela para calcular:

PÁGINAS WEBW1W2W3W4W5Contagem de sites%
Inglês10510360%
Espanhol1010120%
Francês5102120%
Idioma da página inicial detectadoInglêsInglêsInglêsfrancêsespanhol5 

E os resultados finais estão muito longe da realidade, com um enorme vies a favor do inglês:

  • Inglês = 60%.
  • Francês = 20%
  • Espanhol = 20%

A fórmula que definimos, no documento referenciado, para não enviesar os resultados da W3Techs é : Percentagem de inglês correto = Resultados do W3Techs para inglês / Taxa de multilinguismo da amostragem.

A Taxa de Multilinguismo é definida pelo número total de versões linguísticas da Web dividido pelo número total de sítios Web.

Neste exemplo, a taxa de multilinguismo é de 8/5 = 1,6

Se dividirmos os últimos resultados de inglês, 60%, por 1,6, obtemos 37,50%, o mesmo resultado que obtivemos no segundo cálculo.

Note-se que esta equação não pode ser aplicada a outras línguas para além do inglês, uma vez que o inglês é a única língua na W3Techs cuja contagem é válida e pode, portanto, ser corrigida. As percentagens das outras línguas na W3Techs medem, de facto, os sítios Web nessas línguas que não têm versão em inglês.

Tentámos aproximar a taxa de multilinguismo da amostragem Tranco utilizada pela W3Techs e descobrimos que pode rondar os 2. Note-se que a taxa de multilinguismo da humanidade está atualmente estimada em 1,42 e não é de surpreender que a taxa de multilinguismo da Word Wide Web seja largamente superior. Com base nesta fórmula, quando a W3Techs diz que o inglês representa 50% da Web, os resultados imparciais são cerca de 25%. Por outras palavras, o preconceito da W3Techs por não ter em conta o multilinguismo da Web pode ser mais do dobro da realidade!

Se estiver interessado em aprofundar estas considerações, leia o paper!

Projetos de OBDILCI

  • Indicadores da presença das línguas na Internet
  • As línguas da França na Internet
  • Francês na Internet
  • Português na Internet
  • Espanhol na Internet
  • IA e multilinguismo
  • DILINET
  • Projetos pré-históricos