OBDILCI

PROJETO PRINCIPAL 2: MECILDI

A nossa principal missão é produzir indicadores da presença de línguas e do multilinguismo na Internet.

O primeiro projeto principal, iniciado em 2017 e que atingiu a maturidade em 2022, criou um modelo capaz de produzir indicadores para 362 línguas. Este modelo é atualizado pelo menos uma vez por ano.

O segundo projeto principal (MECILDI), iniciado em 2025, visa fornecer um programa capaz de medir indicadores de presença linguística e multilinguismo em qualquer conjunto de sites alvo. Este programa permite avaliar os resultados do modelo e abrir novas linhas de investigação através da sua aplicação em diferentes conjuntos, por exemplo, visando ccTLDs específicos ou a lista TRANCO dos sites mais visitados com mais de um milhão de visitas. Ao contrário da maioria dos programas existentes comparáveis (como o W3Techs), o MECILDI irá fornecer um processo adequado para ter em conta o facto de um site poder conter mais do que um idioma, eliminando assim este enorme enviesamento dos outros métodos documentados nesta referência revista por pares.

Esta secção centra-se no MECILDI. Se estiver interessado no MODEL, passe para PROJETO PRINCIPAL 1: MODEL.

MECILDI

Os dados obtidos a partir do modelo OBDILCI são de interesse geral no que diz respeito às línguas na Internet, uma vez que o método não permite realizar uma análise específica de um subconjunto concreto, como um país específico ou um grupo de países.

Além disso, as investigações históricas realizadas para desenvolver indicadores de diversidade linguística forneceram provas científicas documentadas  que contradizem os métodos propostos pelas empresas de marketing, os quais carecem do rigor científico necessário e cujo forte viés a favor do inglês alimentou, e continua a alimentar, uma desinformação crónica sobre o espaço que o inglês ocupa na web. Os enviesamentos mais significativos destas fontes derivam da sua incapacidade de ter em conta a realidade do multilinguismo nos sites (ver este artigo) e, ao mesmo tempo, ocultam a realidade do forte multilinguismo da web, que está acrescer rapidamente (ver esta secção) graças às contribuições das ferramentas de inteligência artificial.

Estas circunstâncias levaram a OBDILCI a adotar o método tradicional utilizado por fontes influentes, mas tendenciosas: a deteção algorítmica de línguas diretamente numa amostra de sites que se supõe representativa de toda a Web. No entanto, ao contrário destes métodos superficiais, o MECILDI conferirá o rigor necessário à análise do multilinguismo. Esta nova e ambiciosa ferramenta permitirá ainda à OBDILCI alargar o seu âmbito de estudo através da análise específica de segmentos concretos da Internet, definidos de acordo com critérios geográficos ou temáticos.

O programa MECILDI será capaz de analisar uma ampla variedade de sítios web, aplicando a cada um deles um algoritmo de deteção de língua — selecionado pela sua fiabilidade e abrangência. Esta ferramenta, combinada com uma vasta gama de técnicas de identificação, permitirá determinar a distribuição linguística do público-alvo em termos percentuais, bem como outros indicadores relacionados com o multilinguismo. Ter em conta a natureza multilingue de uma proporção significativa de sites constitui um desafio técnico complexo que representa o objetivo principal deste projeto.

Numa primeira fase, o MECILDI poderá esclarecer a prevalência real do inglês na Internet, utilizando a mesma técnica que a W3Techs, mas sem o viés significativo inerente a esses dados. Posteriormente, o MECILDI fornecerá resultados originais e específicos, capazes de orientar, numa base objetiva, as estratégias digitais e as políticas públicas em matéria de línguas e multilinguismo no ciberespaço, começando pelos domínios linguísticos das línguas da França.

O projeto conta atualmente com o apoio da DGLFLF. Este apoio permitiu desenvolver uma versão inicial mais simples, que se centra na técnica mais comum para sites multilingues (o atributo hreflang) e se baseia na extrapolação de dados. Esta versão encontra-se atualmente em fase de testes e deverá apresentar os primeiros resultados nas próximas semanas. É necessário um maior apoio para desenvolver a versão completa, capaz de identificar todas as técnicas multilingues nos sites e extrair a sua distribuição linguística, o que representa um importante desafio técnico.

De qualquer forma, o método e os seus resultados serão apresentados em pormenor num artigo publicado numa revista científica sujeita a revisão por pares. É muito provável que os resultados confirmem definitivamente as conclusões do OBDILCI, que estimam que a percentagem de páginas web em inglês a nível mundial se situe entre 20 % e 27 % (ver o estudo apresentado na reunião da UNESCO/LT4ALL em 2025).

Projetos de OBDILCI

  • Indicadores da presença das línguas e multilinguismo na Internet
  • As línguas da França na Internet
  • Francês na Internet
  • Português na Internet
  • Espanhol na Internet
  • Multilinguismo en la Web
  • Cursos
  • IA e multilinguismo
  • gTLDs linguisticos
  • DILINET
  • Projetos pré-históricos
  • Projeto Digital Language Death