PROJETO PRINCIPAL-INGLES@WEB- W3TECHS
Vies do multilinguismo da W3Techs
Vies do multilinguismo da W3Techs
Imaginemos que a Web é composta por 5 sítios Web (W1 a W5), num total de 62 páginas Web, e que existem apenas 3 línguas: inglês, francês e espanhol.
Suponhamos as seguintes composições linguísticas das 62 páginas da Web, tal como são apresentadas nesta tabela:
PÁGINAS WEB | W1 | W2 | W3 | W4 | W5 | TOTAL | % |
Inglês | 10 | 5 | 10 | 0 | 0 | 25 | 40.32% |
Espanhol | 0 | 0 | 10 | 0 | 10 | 20 | 32.26% |
Francês | 0 | 5 | 10 | 2 | 0 | 17 | 27.42% |
TOTAL | 10 | 10 | 30 | 2 | 10 | 62 | 100% |
Por outras palavras, temos:
- W1: um sítio Web com 10 páginas em inglês
- W2: um sítio Web com 5 páginas em inglês e 5 páginas em francês
- W3: um sítio Web com 10 páginas em cada língua
- W4: um sítio Web com 2 páginas em francês
- W5: um sítio Web com 10 páginas em espanhol
O que torna :
- 25 páginas em inglês
- 20 páginas em espanhol
- 17 páginas em francês
- num total de 62 páginas;
Por conseguinte, as percentagens correctas de línguas na Web são:
- Inglês = 25/62 = 40,32%
- Espanhol = 20/62 = 32,26%
- Francês = 17/62 = 27,42%
Se não formos capazes de calcular por páginas Web e o fizermos por sítios Web, tendo em devida conta o multilinguismo dos sítios Web, os resultados correctos serão obtidos dividindo o número de sítios Web numa determinada língua pelo número total de versões linguísticas dos sítios Web. A tabela é então a seguinte:
PÁGINAS WEB | W1 | W2 | W3 | W4 | W5 | WEBSITES NESTA LÍNGUA | % POR LÍNGUA |
Inglês | 10 | 5 | 10 | 3 | 37.50% | ||
Espanhol | 10 | 10 | 2 | 25.00% | |||
Francês | 5 | 10 | 2 | 3 | 37.50% | ||
Versões linguísticas | 1 | 2 | 3 | 1 | 1 | 8 | 100% |
E os resultados são:
- Inglês = 3/8 = 37,5%
- Espanhol = 2/8 = 25%
- Francês = 3/8 = 37,5%
É evidente que este método não fornece a resposta correcta, mas apenas uma aproximação, uma vez que favorece as línguas pertencentes a sítios Web com menos páginas, neste caso o francês. Observe que, com a enorme quantidade de espaço real da Web, esse viés provavelmente não é tão importante.
Agora, se, tal como a W3Techs, não tivermos em conta o multilinguismo e a nossa língua predefinida for o inglês, utilizaremos esta tabela para calcular:
PÁGINAS WEB | W1 | W2 | W3 | W4 | W5 | Contagem de sites | % |
Inglês | 10 | 5 | 10 | 3 | 60% | ||
Espanhol | 10 | 10 | 1 | 20% | |||
Francês | 5 | 10 | 2 | 1 | 20% | ||
Idioma da página inicial detectado | Inglês | Inglês | Inglês | francês | espanhol | 5 |
E os resultados finais estão muito longe da realidade, com um enorme vies a favor do inglês:
- Inglês = 60%.
- Francês = 20%
- Espanhol = 20%
A fórmula que definimos, no documento referenciado, para não enviesar os resultados da W3Techs é : Percentagem de inglês correto = Resultados do W3Techs para inglês / Taxa de multilinguismo da amostragem.
A Taxa de Multilinguismo é definida pelo número total de versões linguísticas da Web dividido pelo número total de sítios Web.
Neste exemplo, a taxa de multilinguismo é de 8/5 = 1,6
Se dividirmos os últimos resultados de inglês, 60%, por 1,6, obtemos 37,50%, o mesmo resultado que obtivemos no segundo cálculo.
Note-se que esta equação não pode ser aplicada a outras línguas para além do inglês, uma vez que o inglês é a única língua na W3Techs cuja contagem é válida e pode, portanto, ser corrigida. As percentagens das outras línguas na W3Techs medem, de facto, os sítios Web nessas línguas que não têm versão em inglês.
Tentámos aproximar a taxa de multilinguismo da amostragem Tranco utilizada pela W3Techs e descobrimos que pode rondar os 2. Note-se que a taxa de multilinguismo da humanidade está atualmente estimada em 1,42 e não é de surpreender que a taxa de multilinguismo da Word Wide Web seja largamente superior. Com base nesta fórmula, quando a W3Techs diz que o inglês representa 50% da Web, os resultados imparciais são cerca de 25%. Por outras palavras, o preconceito da W3Techs por não ter em conta o multilinguismo da Web pode ser mais do dobro da realidade!
Se estiver interessado em aprofundar estas considerações, leia o paper!
Projetos de OBDILCI
- Indicadores da presença das línguas na Internet
- As línguas da França na Internet
- Francês na Internet
- Português na Internet
- Espanhol na Internet
- IA e multilinguismo
- DILINET
- Projetos pré-históricos