OBDILCI

PROJET PRINCIPAL 2 : MECILDI

Notre mission principale consiste à produire des indicateurs de la présence des langues et du multilinguisme dans l’Internet.

Le premier projet majeur, lancé en 2017 et arrivé à maturité en 2022, a permis de créer un modèle capable de produire des indicateurs pour 362 langues. Ce modèle est mis à jour au moins une fois par an.

Le deuxième projet principal (MECILDI), lancé en 2025, vise à fournir un programme capable de mesurer les indicateurs de présence linguistique et de multilinguisme dans n’importe quelle série ciblée de sites web. Ce programme permet d’évaluer les résultats du modèle et d’ouvrir de nouvelles pistes de recherche par application à différentes séries, par exemple en ciblant des ccTLD spécifiques ou la liste TRANCO du million de sites web les plus visités. Contrairement à la plupart des programmes existants comparables (tels que W3Techs), MECILDI mettra en place une procédure appropriée pour prendre en compte le fait qu’un site web peut contenir plusieurs langues, éliminant ainsi cet énorme biais des autres méthodes documentées dans cette référence évaluée par des pairs.

Cette section est consacrée à MECILDI. Si vous êtes intéressé par le modèle, rendez-vous sur PROJET PRINCIPAL 1 : MODÈLE.

MECILDI : Resumé du projet

Les données obtenues par le modèle d’OBDILCI sont de portée générale en ce qui concerne les langues dans l’Internet, car la méthode ne permet pas une analyse ciblée sur un sous-ensemble particulier, comme, par exemple, un pays spécifique ou un groupe de pays.

Par ailleurs, les travaux historiques réalisés pour la création d’indicateurs sur la diversité linguistique ont permis d’apporter un démenti scientifique documenté sur des méthodes proposées par des entreprise de marketing, sans la rigueur scientifique requise, et dont les forts biais en faveur de l’anglais ont nourri et continuent de nourrir une mésinformation chronique sur la place de l’anglais dans l’Internet. Les biais les plus importants de ces sources résultent de la non prise en compte de la réalité du multilinguisme des sites Web (voir cet article) et occultent par la même occasion la réalité d’un fort multilinguisme de la Toile, en croissance accélérée (voir cette section) grâce aux contributions des outils de l’intelligence artificielle.

Ces circonstances ont conduit OBDILCI à reprendre la méthode traditionnelle utilisée par les sources influentes mais biaisées, la détection algorithmique des langues directement sur un échantillon de sites web supposé être représentatif de l’ensemble de la Toile. Cependant, à différence de ces méthodes superficielles, MECILDI va apporter le sérieux nécessaire à la prise en compte du multilinguisme. Ce nouvel outil ambitieux permettra par ailleurs à OBDILCI d’élargir son champ d’étude par l’analyse ciblée vers des segments spécifiques de l’Internet, définis selon des critères géographiques ou thématiques.

Le programme MECILDI sera capable d’explorer une large série de sites web, en appliquant à chacun d’entre eux un algorithme de détection des langues, sélectionné pour sa fiabilité et sa couverture. Cet outil, associé à une gamme étendue de techniques d’identification, permettrait d‘extraire la répartition linguistique en pourcentage de la cible visée, ainsi que d’autres indicateurs relatifs au multilinguisme. La prise en compte de la réalité multilingue d’une proportion non négligeable de sites représente un défi technique complexe qui est l’objet de ce projet.

MECILDI pourra dans un premier temps apporter de la clarté sur la réalité de la présence de l´anglais dans la Toile en utilisant la même technique que W3Techs, mais sans le biais majeur que porte ces données. En séquence, MECILDI apportera des résultats ciblés originaux, susceptibles d’orienter sur des bases factuelles, les stratégies numériques et les politiques publiques pour les langues et le multilinguisme dans le cyberespace, en commençant par les domaines linguistiques des langues de France.

Le projet est pour le moment soutenu par la DGLFLF. Ce soutien a permis le développement d’une première version plus simple car se concentrant sur la technique la plus courante pour le multilinguisme des sites web (l’instruction Hreflang) et basé sur l’extrapolation des données. Cette version est en cours de test et devrait apporter les premiers résultats dans les semaines à venir. Un appui plus important est nécessaire pour obtenir la version complète capable d’identifier toutes les techniques de multilinguisme dans les sites web et d’en extraire la répartition linguistique, un gros défi technique.

Dans tous les cas la méthode et ses résultats seront détaillés dans un article publié dans une revue scientifique à comité de lecture. Les résultats permettront en toute probabilité de confirmer définitivement les travaux d’OBDILCI qui estiment que le pourcentage de pages web en anglais à l’échelle globale sont à l’intérieur de la fenêtre 20%-27% (voir l’étude présentée à la réunion UNESCO/LT4ALL en 2025).

Les projets d’OBDILCI

  • Indicateurs de la présence des langues et du multilinguisme dans l’Internet
  • Les langues de France dans l’Internet
  • Le français dans l’Internet
  • Le portugais dans l’Internet
  • L’espagnol dans l’Internet
  • Rapports sur le multilinguisme de la Toile
  • Cours
  • IA et multilinguisme
  • gTLDs linguistiques
  • DILINET
  • Projets pré-historiques
  • Mort numérique des langues