MECILDI
Une nouvelle section a été ajoutée sous le titre « PROJET PRINCIPAL 2 : MECILDI ». MECILDI est l’acronyme français de mesure ciblée des langues dans l’Internet.
Il s’agit d’un nouveau projet ambitieux visant à créer un programme capable d’extraire des données sur la répartition linguistique et des paramètres relatifs au multilinguisme à partir de n’importe quelle série de sites web, en tenant compte du fait qu’un site web peut comporter plusieurs langues.
La prise en compte du multilinguisme sur le Web dans ce processus constitue à la fois un problème complexe et une avancée historique. Appliquée à TRANCO, la série des un million de sites Web les plus visités, elle permettra de corriger les chiffres extrêmement biaisés fournis par W3Techs (voir cet article) et d’offrir la toute première mesure corrigée des biais concernant la répartition linguistique des pages web des sites les plus visités.
La version 1 de MECILDI en est à la phase finale de test et nous vous communiquerons bientôt les résultats, restez à l’écoute !
La première version de ce projet a été financée par la délégation générale à la langue française et aux langues de France du ministère français de la Culture et sera ensuite utilisé pour obtenir des caractéristiques multilingues et la répartition des pourcentages linguistiques pour une série de gTLD des langues de France (.alsace, .bzh, .corsica, .gp, .mq, .yt, .nc, .eus, .pf et .wf).

