PROJET PRINCIPAL – V1.0 (2017)

Indicateurs de la présence des langues dans l’internet

NOTE : Il s’agit d’une version archivée de l’étude. Cliquez ici pour consulter la version la plus récente

Résumé du projet – V1.0 (2017)

Cet observatoire a mesuré la place des langues latines, de l’anglais et de l’allemand dans l’Internet, entre 1997 et 2007. Après 10 ans d’éclipse, due à l’évolution des moteurs de recherche, nous sommes de retour, grâce au soutien de l’Organisation Internationale de la Francophonie et de MAAYA, avec une nouvelle méthode pour produire des indicateurs pour les 140 langues de plus de 5 millions de locuteurs.

La méthode, les résultats et une discussion sur les biais de la mesure des langues sur Internet peuvent être lus dans : Une approche alternative pour produire des indicateurs de langues sur Internet, juin 2017. L’ensemble des résultats pour les 140 langues peut être consulté ci-dessous.

Une version courte et introductive de 5 pages en anglais a été présentée à LT4ALL Conférence internationale Language Technologies for All : Enabling Linguistic Diversity and Multilingualism Worldwide, UNESCO, Paris, Novembre 2019 : Indicators of languages in the Internet.

Vous pouvez consulter également les 2 présentations :


Six indicateurs

  • Utilisateurs de l’Internet (personnes connectées à l’Internet), c’est-à-dire les locuteurs de chaque langue ayant accès à l’Internet. Un micro-indicateur unique (offert par l’UIT) répond à ce besoin et servira de source fondamentale pour le reste du travail.
  • Utilisation : Concerne les abonnements à des applications ou à des moyens de connexion à l’internet. Onze micro-indicateurs sont impliqués dans la construction de cet indicateur.
  • Trafic : Indication du trafic généré par les utilisateurs vers les applications. Trois cent seize micro-indicateurs sont utilisés pour construire cet indicateur.
  • Index : Concerne le classement des pays dans divers aspects de la société de l’information. Cinq micro-indicateurs sont actuellement utilisés pour construire cet indicateur.
  • Contenus : Concerne les contenus sur le web pour chaque langue et qui, pour l’instant, recueille principalement des données de la galaxie Wikimedia. Treize micro-indicateurs fournissent des données pour cet indicateur.
  • Interfaces et traduction des langues : se réfère à la présence de langues dans les interfaces des applications ou en tant que langue de traduction. Vingt-trois micro-indicateurs composent cet indicateur.

Trois macro-indicateurs

  • Puissance des langues sur l’internet, qui mesure la part globale de la langue dans l’internet, moyenne des six indicateurs précédents ;
  • Capacité de la langue dans l’internet, mesurée par le rapport entre la puissance et le pourcentage mondial de locuteurs de cette langue
  • Gradient, mesuré par le rapport entre la puissance et le pourcentage de locuteurs connectés à l’Internet.
  • Productivité de la langue en termes de création de contenu, qui est mesurée par le rapport entre le pourcentage de contenu dans cette langue et le pourcentage d’utilisateurs d’Internet dans la même langue.

Résultats de l’étude 2017 (V1.0)

LANGUEINTERNAUTSCONTENUPRODUCTIVITÉ
Anglais22.2%32.0%1.44
Chinois20.5%18.0%0.88
Espagnol9.1%8.0%0.88
Français5.6%6.5%1.17
Allemand3.1%3.8%1.21
Russe5.0%3.5%0.71
Portugais4.0%3.5%0.88
Japonais3.4%3.5%1.04
L’arabe4.2%3.0%0.72
Hindi3.9%3.0%0.77
Malais2.6%2.5%0.96
Polonais1.7%1.8%1.09
Coréen1.4%1.4%1.01
Bengali1.5%1.3%0.86
Italien0.9%1.1%1.23
Urdu0.8%0.7%0.84
RESTANT35.3%31.4%0.89
TOTAL125.0%125.0% 1

Il convient de noter que les totaux sont supérieurs à 100 % afin de tenir compte du multilinguisme (25 % correspondrait à la population des personnes ayant une deuxième langue).

Les projets d’OBDILCI

  • Indicateurs de la présence des langues dans l’Internet
  • Les langues de France dans l’Internet
  • Le français dans l’Internet
  • Le portugais dans l’Internet
  • L’espagnol dans l’Internet
  • IA et multilinguisme
  • DILINET
  • Projets pré-historiques
  • Mort numérique des langues