
OBDILCI
PROJETO PRINCIPAL 2: MECILDI

PROJETO PRINCIPAL 2: MECILDI
A nossa principal missão é produzir indicadores da presença de línguas e do multilinguismo na Internet.
O primeiro projeto principal, iniciado em 2017 e que atingiu a maturidade em 2022, criou um modelo capaz de produzir indicadores para 362 línguas. Este modelo é atualizado pelo menos uma vez por ano.
O segundo projeto principal (MECILDI), iniciado em 2025, visa fornecer um programa capaz de medir indicadores de presença linguística e multilinguismo em qualquer conjunto de sites alvo. Este programa permite avaliar os resultados do modelo e abrir novas linhas de investigação através da sua aplicação em diferentes conjuntos, por exemplo, visando ccTLDs específicos ou a lista TRANCO dos sites mais visitados com mais de um milhão de visitas. Ao contrário da maioria dos programas existentes comparáveis (como o W3Techs), o MECILDI irá fornecer um processo adequado para ter em conta o facto de um site poder conter mais do que um idioma, eliminando assim este enorme enviesamento dos outros métodos documentados nesta referência revista por pares.
Esta secção centra-se no MECILDI. Se estiver interessado no MODEL, passe para PROJETO PRINCIPAL 1: MODEL.
MECILDI
Os dados obtidos a partir do modelo OBDILCI são de interesse geral no que diz respeito às línguas na Internet, uma vez que o método não permite realizar uma análise específica de um subconjunto concreto, como um país específico ou um grupo de países.
Além disso, as investigações históricas realizadas para desenvolver indicadores de diversidade linguística forneceram provas científicas documentadas que contradizem os métodos propostos pelas empresas de marketing, os quais carecem do rigor científico necessário e cujo forte viés a favor do inglês alimentou, e continua a alimentar, uma desinformação crónica sobre o espaço que o inglês ocupa na web. Os enviesamentos mais significativos destas fontes derivam da sua incapacidade de ter em conta a realidade do multilinguismo nos sites (ver este artigo) e, ao mesmo tempo, ocultam a realidade do forte multilinguismo da web, que está acrescer rapidamente (ver esta secção) graças às contribuições das ferramentas de inteligência artificial.
Estas circunstâncias levaram a OBDILCI a adotar o método tradicional utilizado por fontes influentes, mas tendenciosas: a deteção algorítmica de línguas diretamente numa amostra de sites que se supõe representativa de toda a Web. No entanto, ao contrário destes métodos superficiais, o MECILDI conferirá o rigor necessário à análise do multilinguismo. Esta nova e ambiciosa ferramenta permitirá ainda à OBDILCI alargar o seu âmbito de estudo através da análise específica de segmentos concretos da Internet, definidos de acordo com critérios geográficos ou temáticos.
O programa MECILDI será capaz de analisar uma ampla variedade de sítios web, aplicando a cada um deles um algoritmo de deteção de língua — selecionado pela sua fiabilidade e abrangência. Esta ferramenta, combinada com uma vasta gama de técnicas de identificação, permitirá determinar a distribuição linguística do público-alvo em termos percentuais, bem como outros indicadores relacionados com o multilinguismo. Ter em conta a natureza multilingue de uma proporção significativa de sites constitui um desafio técnico complexo que representa o objetivo principal deste projeto.
Numa primeira fase, o MECILDI poderá esclarecer a prevalência real do inglês na Internet, utilizando a mesma técnica que a W3Techs, mas sem o viés significativo inerente a esses dados. Posteriormente, o MECILDI fornecerá resultados originais e específicos, capazes de orientar, numa base objetiva, as estratégias digitais e as políticas públicas em matéria de línguas e multilinguismo no ciberespaço, começando pelos domínios linguísticos das línguas da França.
O projeto conta atualmente com o apoio da DGLFLF. Este apoio permitiu desenvolver uma versão inicial mais simples, que se centra na técnica mais comum para sites multilingues (o atributo hreflang) e se baseia na extrapolação de dados. Esta versão encontra-se atualmente em fase de testes e deverá apresentar os primeiros resultados nas próximas semanas. É necessário um maior apoio para desenvolver a versão completa, capaz de identificar todas as técnicas multilingues nos sites e extrair a sua distribuição linguística, o que representa um importante desafio técnico.
De qualquer forma, o método e os seus resultados serão apresentados em pormenor num artigo publicado numa revista científica sujeita a revisão por pares. É muito provável que os resultados confirmem definitivamente as conclusões do OBDILCI, que estimam que a percentagem de páginas web em inglês a nível mundial se situe entre 20 % e 27 % (ver o estudo apresentado na reunião da UNESCO/LT4ALL em 2025).
ABRIL DE 2026: A VERSÃO 1 DO MECILDI JÁ FOI DESENVOLVIDA, TESTADA E ESTÁ A FUNCIONAR.
Foi definida uma série de testes com o objetivo, por um lado, de verificar e aprovar o método e o programa e, por outro, de recolher dados relevantes sobre a utilização dos sites mais visitados — um milhão no total — para estimar a proporção de línguas em toda a Web.
- SÉRIE 1: 4 de maio de 2026, aplicável à série TRANCO de novembro de 2025
- RUN 1.1: 5 de maio de 2026; igual à anterior, mas com a correção de um erro na percentagem de sites que dispõem de uma versão em inglês (57,9 %). Percentagem de páginas web em inglês = 22,1 %; índice de multilinguismo = 3; percentagem de sites multilingues = 33,8 %; número médio de idiomas por site multilingue = 7; percentagem de sites que utilizam o Google Translate integrado = 1,2 %
- ANÁLISE DE SENSIBILIDADE DOS FATORES: 8 de maio de 2026. O principal viés do método é o fator de extrapolação utilizado para projetar os resultados completos. a) Uma análise heurística confirma que a escolha de 40 % como base está correta. b) A simulação de variações deste valor num amplo intervalo confirma que a percentagem do inglês se mantém dentro do intervalo de 20 % a 27 %. O impacto de outros fatores nos resultados é marginal.
- A execução 2: 11/4/2026, aplicada à série TRANCO de 4 de abril de 2026, confirma e corrobora os principais resultados. Não se observam grandes diferenças nos indicadores principais nem nas línguas principais (frequentemente dentro do intervalo de confiança). A maioria das diferenças ocorreu, como era de esperar, nas taxas de erro e nas línguas menos dominantes. A tendência do inglês é ligeiramente descendente (56 %/21,8 % contra 58 %/22,1 %).
- RUN 3: 13 de maio de 2026, é realizado um último teste para confirmar a abordagem estatística. É submetida uma nova série gerada aleatoriamente de 100 mil locais. 97,8% dos novos resultados permanecem no intervalo de confiança dos primeiros resultados e, para os 5 resultados em 240 que apresentam uma diferença superior, esta permanece marginal (0,05%). Este último teste confirma a abordagem estatística e conclui a campanha de medição.
| % OF WEBPAGES IN | VALOR EM TRANCO | intervalo de confiança |
| English | 21,77% | 0,79% |
| German | 6,93% | 0,24% |
| French | 6,38% | 0,24% |
| Spanish | 6,36% | 0,22% |
| Italian | 4,13% | 0,16% |
| Portuguese | 3,86% | 0,15% |
| Russian | 3,86% | 0,16% |
| Dutch | 3,17% | 0,13% |
| Japanese | 2,93% | 0,11% |
| Chinese | 2,77% | 0,13% |
| Polish | 2,57% | 0,10% |
| Indonesian | 1,79% | 0,10% |
| Turkish | 1,76% | 0,10% |
| Swedish | 1,74% | 0,11% |
| Korean | 1,62% | 0,09% |
| Arabic | 1,60% | 0,10% |
| Czech | 1,52% | 0,09% |
| Danish | 1,41% | 0,10% |
| Finnish | 1,28% | 0,10% |
| Romanian | 1,26% | 0,08% |
| Ukrainian | 1,24% | 0,10% |
| Hungarian | 1,23% | 0,08% |
| Modern Greek | 1,10% | 0,08% |
| Vietnamese | 1,09% | 0,07% |
Esta tabela apresenta os idiomas dos milhões de sites mais visitados, de acordo com a série TRANCO. Esta série baseia-se em fontes (Majestic, QuantCast, Cisco Umbrella) que apresentam um viés acentuado a favor dos principais países ocidentais, o que favorece as principais línguas europeias (inglês, alemão, francês, espanhol…). Esses números não refletem a realidade da proporção de idiomas em toda a web, onde as percentagens de idiomas não europeus, em particular o chinês, seriam consideravelmente mais elevadas.
De qualquer forma, as diferenças entre estes números e os do W3Techs (calculados na mesma série) devem-se ao facto de a W3Techs não ter em conta o multilinguismo dos sites e contabilizar apenas um único idioma por site, enquanto nós contabilizamos todas as versões linguísticas.
Os dados relativos às mais de 200 línguas incluídas no estudo estão disponíveis em acesso aberto (CC-BY-SA 4.0) abaixo.
Os detalhes relativos às mais de 200 línguas incluídas no estudo TRANCO estão disponíveis gratuitamente (CC-BY-SA 4.0) abaixo. Também se apresentam alguns dados sobre o estado do multilinguismo na Web.
O estudo sobre a diversidade linguística dos gTLD em França já foi concluído; pode consultar os resultados abaixo.
Por fim, incluem-se informações técnicas para que os webmasters possam verificar como o robô MECILDI trata os sites explorados.


Projetos de OBDILCI
- Indicadores da presença das línguas e multilinguismo na Internet
- As línguas da França na Internet
- Francês na Internet
- Português na Internet
- Espanhol na Internet
- Multilinguismo en la Web
- Cursos
- IA e multilinguismo
- gTLDs linguisticos
- DILINET
- Projetos pré-históricos
- Projeto Digital Language Death
