DETECTOR DE IDIOMA MECILDI

Información para administradores web

Resumen

MECILDI es un bot de investigación sin ánimo de lucro gestionado por OBDILCI. Visitamos las páginas de inicio de los sitios web con una frecuencia de entre 1 y 4 veces al año para evaluar el multilingüismo de dichos sitios web. Nuestro bot está diseñado para ser ultraligero, accediendo solo a 2 archivos por dominio (robots.txt y la página de inicio) para identificar la presencia web monolingüe frente a la multilingüe. La selección de sitios web es aleatoria y la probabilidad de visitar el mismo sitio más de una vez al año es muy baja.

Metodología completa y comportamiento del rastreador

El proyecto MECILDI (Medición específica de las lenguas en Internet, acrónimo de la versión francesa) es una iniciativa científica dirigida por la organización de investigación sin ánimo de lucro OBDILCI (www.obdilci.org). Este trabajo cuenta con el apoyo de diversas organizaciones gubernamentales y de financiación, y está dedicado exclusivamente a la investigación académica.

Nuestro objetivo es crear un mapa estadístico de la diversidad lingüística en Internet. A diferencia de los robots de los motores de búsqueda o de los programas de minería de datos, nuestro rastreador sigue un protocolo de «huella mínima»:

  1. Frecuencia: En su modo de funcionamiento estándar, nuestro rastreador visitará cualquier dominio dado entre 1 y 4 veces al año como máximo, aunque la mayoría de los sitios solo se visitarán una o dos veces.

    • Nota sobre el desarrollo: Durante nuestra actual fase de desarrollo y pruebas, es posible que se visiten algunos dominios con mayor frecuencia (cada pocos días). Se prevé que este periodo de pruebas concluya a principios del segundo trimestre de 2026, tras lo cual el bot volverá a su ciclo habitual.

  2. Profundidad: No rastreamos páginas internas. Solo solicitamos el archivo robots.txt y la página de inicio raíz de un dominio.

  3. Eficiencia: Para minimizar la carga del servidor, nuestro rastreador intenta identificar en paralelo el protocolo correcto (HTTP frente a HTTPS) y el subdominio (WWW frente a no WWW). Tan pronto como se establece la primera conexión, todas las conexiones de «sondeo» restantes a ese dominio específico se cancelan inmediatamente.

  4. Cortesía: Nuestro bot respeta estrictamente las directrices de robots.txt.

  5. Control del tráfico: Limitamos nuestro rastreo global a un pequeño número de solicitudes simultáneas (normalmente 10) para asegurarnos de no sobrecargar las redes de los proveedores de alojamiento.

¿Por qué se ha visitado mi sitio web? Su dominio ha sido seleccionado al azar como parte de una muestra de investigación científica a gran escala. Nuestros conjuntos de datos proceden de dominios de nivel superior con código de país (ccTLD) o de la lista TRANCO de los sitios web más visitados a nivel mundial. Este muestreo aleatorio nos permite ayudar a investigadores, ONG y gobiernos a comprender mejor las complejas características del multilingüismo y la diversidad lingüística en la WWW, lo cual constituye el núcleo de nuestra misión como organización sin ánimo de lucro.

Contacto: Si tiene alguna pregunta o duda, o si desea excluir su dominio de futuros ciclos de investigación, póngase en contacto con nosotros en contact@obdilci.org

Proyectos OBDILCI

  • Indicadores de la presencia de lenguas en la Internet
  • Las lenguas de Francia en la Internet
  • El francés en la Internet
  • El portugués en la Internet
  • El español en la Internet
  • IA y multilinguismo
  • gTLDs lingüísticos
  • Proyectos pre-históricos
  • Muerte digital de las lenguas