DETETOR DE LÍNGUA MECILDI

Informações sobre investigação para webmasters

Resumo

MECILDI é um bot de investigação sem fins lucrativos operado pela OBDILCI. Visitamos as páginas iniciais dos sites com uma frequência de 1 a 4 vezes por ano para avaliar o multilinguismo desses sites. O nosso bot foi concebido para ser ultraleve, acedendo apenas a 2 ficheiros por domínio (robots.txt e a página inicial) para identificar a presença na Web monolingue versus multilingue. A seleção de sites é aleatória e a probabilidade de visitar o mesmo site mais de uma vez por ano é muito baixa.

Metodologia completa e comportamento do rastreador

O projeto MECILDI (Medição Direcionada de Línguas na Internet, sigla da versão francesa) é uma iniciativa científica liderada pela organização de investigação sem fins lucrativos OBDILCI (www.obdilci.org). Este trabalho conta com o apoio de várias organizações governamentais e de financiamento e dedica-se exclusivamente à investigação académica.

O nosso objetivo é criar um mapa estatístico da diversidade linguística na World Wide Web. Ao contrário dos robôs dos motores de busca ou dos programas de mineração de dados, o nosso rastreador segue um protocolo de «pegada mínima»:

  1. Frequência: No seu modo de funcionamento padrão, o nosso rastreador visitará qualquer domínio no máximo 1 a 4 vezes por ano, embora a maioria dos sites seja visitada apenas uma ou duas vezes.

    • Nota de desenvolvimento: Durante a nossa atual fase de desenvolvimento e testes, alguns domínios poderão ser visitados com maior frequência (a cada poucos dias). Prevê-se que este período de testes termine no início do segundo trimestre de 2026, após o qual o bot voltará ao seu ciclo normal.

  2. Profundidade: Não rastreamos páginas internas. Apenas solicitamos o ficheiro robots.txt e a página inicial de um domínio.

  3. Eficiência: Para minimizar a carga do servidor, o nosso rastreador tenta identificar o protocolo correto (HTTP vs HTTPS) e o subdomínio (WWW vs não-WWW) em paralelo. Assim que a primeira ligação for bem-sucedida, todas as restantes ligações de «sondagem» para esse domínio específico são imediatamente canceladas.

  4. Cortesia: O nosso bot respeita rigorosamente as diretrizes do ficheiro robots.txt.

  5. Controlo de tráfego: Limitamos a nossa rastreabilidade global a um pequeno número de pedidos simultâneos (normalmente 10) para garantir que não sobrecarregamos as redes dos fornecedores de alojamento web.

Por que razão o meu site foi visitado? O seu domínio foi selecionado aleatoriamente como parte de uma amostra de investigação científica em grande escala. Os nossos conjuntos de dados provêm de Domínios de Topo de Código de País (ccTLDs) ou da lista TRANCO dos sites globais mais bem classificados. Esta amostragem aleatória permite-nos ajudar investigadores, ONG e governos a compreender melhor as características complexas do multilinguismo e da diversidade linguística na WWW, o que constitui o cerne da nossa missão enquanto organização sem fins lucrativos.

Contacte-nos Se tiver dúvidas, questões ou desejar excluir o seu domínio de futuros ciclos de investigação, contacte-nos através do endereço contact@obdilci.org

Projetos de OBDILCI

  • Indicadores da presença das línguas e multilinguismo na Internet
  • As línguas da França na Internet
  • Francês na Internet
  • Português na Internet
  • Espanhol na Internet
  • Multilinguismo en la Web
  • Cursos
  • IA e multilinguismo
  • gTLDs linguisticos
  • DILINET
  • Projetos pré-históricos
  • Projeto Digital Language Death