MECILDI

1.ª EDIÇÃO DA MECILDI 4/2026

1.ª EDIÇÃO DA MECILDI 4/2026

Abril de 2026: Este é um momento histórico para quem se interessa por línguas na Internet. Pela primeira vez, foi concebido um programa de deteção de idiomas que tem devidamente em conta o multilinguismo na Web, corrigindo o forte viés dos métodos anteriores, que favoreciam o inglês.

Aqui estão os primeiros resultados da versão 1 do MECILDI, aplicada à amostra Tranco de um milhão de sites mais visitados… e permitindo, subsequentemente, corrigir a desinformação mais recorrente sobre a proporção de conteúdos em inglês.

Adivinha só? Todas as nossas principais previsões documentadas estão confirmadas:

  • 22% é o valor correto para a percentagem de páginas web em inglês na lista do Tranco (e não 50%, como indicado aqui), um valor previsto pelo nosso modelo.
  • A equação «sem enviesamento» dos dados da W3Techs proposta no nosso artigo está confirmada. Número imparcial = número tendencioso / Taxa de multilinguismo (22% ~= 56%/3)
  • A análise de todos os métodos existentes, apresentada na UNESCO/LT4ALL, que prevê um valor para o Inglês entre 20 % e 27 %, é confirmada.
  • Os dados relativos ao multilinguismo são ligeiramente superiores ao esperado (ver resultados).

Esperemos que isto ponha fim à desinformação sobre o tema da língua franca da Internet, o inglês.

Uma das conclusões secundárias deste primeiro resultado é que ela modera o entusiasmo em possuir uma ferramenta nova e tão poderosa. Parece claro que utilizar os dados relativos ao milhão de sites mais visitados para extrapolar para toda a Web não faz sentido. A seleção dos sites mais visitados, apesar do esforço genuíno dos autores do Tranco para reduzir os possíveis enviesamentos técnicos das fontes primárias (Majestic, Cisco Umbrella, Quantcast), parece estar viciada na sua essência em termos de enviesamentos geográficos e, consequentemente, linguísticos. Essas fontes visam predominantemente sites de países ocidentais, o que invalida qualquer extrapolação para toda a Web, uma vez que esses números são altamente enviesados contra a maioria das línguas não europeias. Por que razão o chinês representa menos de 3% dos conteúdos, apesar de ter a maior percentagem de falantes conectados (17,6% dos internautas falam chinês, contra os 15,5% que falam inglês)? Provavelmente porque os sites mais visitados selecionados no Tranco não são aqueles visitados por chineses, mas por falantes de chinês da diáspora… Tentaremos analisar este ponto mais aprofundadamente, mas, nesta fase, consideramos o modelo da OBDILCI muito mais fiável do que a extrapolação desses resultados para toda a Web.

Notas:

  • Versão 1 do MECILDI, financiada por DGLFLF, calcula apenas o método mais padrão para o multilinguismo e extrapola valores completos com base em pressupostos de prevalência.
  • A versão 2, financiada pela OIF, estará concluída até ao final de 2026 e irá processar todos os métodos possíveis (trata-se de um assunto complexo).
  • Os resultados obtidos para o milhão de sites mais visitados não devem ser extrapolados tal como estão para toda a Web; esta abordagem favorece fortemente as línguas europeias em detrimento das restantes. Quanto ao inglês, este será menos prevalente na totalidade da Web em comparação com os sites mais visitados, mas, ao mesmo tempo, a taxa de multilinguismo será bastante inferior. Sendo estes dois efeitos contraditórios entre si, é impossível apresentar um valor nesta fase e mantemos as conclusões anteriores: a percentagem de páginas Web em inglês na totalidade da Web situa-se entre 20 % e 27 %.

E agora?

  • Iremos documentar em pormenor o método, bem como os resultados e as considerações, num artigo submetido a revisão por pares para uma revista de renome.
  • Iremos aplicar o MECILDI a um conjunto de 7 gTLDs de línguas da França e elaborar relatórios sobre a repartição linguística e os indicadores de multilinguismo para esses domínios.
  • Iremos prosseguir com a conceção e o desenvolvimento da versão 2 e, posteriormente, aplicar essa versão ao Tranco e também a um conjunto de 10 ccTLDs dos países membros da Francofonia do Sul.
  • Eventualmente, surgirão mais aplicações do MECILDI para compreender melhor a estrutura linguística e o multilinguismo da Internet, bem como a sua evolução ao longo do tempo.

 

Projetos de OBDILCI

  • Indicadores da presença das línguas e multilinguismo na Internet
  • As línguas da França na Internet
  • Francês na Internet
  • Português na Internet
  • Espanhol na Internet
  • Multilinguismo en la Web
  • Cursos
  • IA e multilinguismo
  • gTLDs linguisticos
  • DILINET
  • Projetos pré-históricos
  • Projeto Digital Language Death