PROJET PRINCIPAL

Indicateurs de présence des langues dans l’Internet

Résumé du projet

Jusqu’à récemment, la source de statistiques la plus consultée concernant l’utilisation des langues en ligne reposait sur des algorithmes d’analyse des sites web classés comme les plus visités. Bien que ces statistiques offrent un aperçu intéressant, elles peuvent ne pas refléter avec précision la présence des langues en ligne en raison de l’absence de prise en compte de la nature souvent très multilingue des sites web, lacune qui engendre d’importants biais.

En 2017, l’Observatoire de la diversité linguistique et culturelle dans l’internet a conçu une nouvelle approche qui pourrait aider à mieux suivre la progression et la prévalence des langues en ligne. Grâce à cette approche, nous avons pu identifier des indicateurs significatifs décrivant la présence de 343 langues dans l’internet.

Les langues avec le plus fort pourcentage de contenus

RANG POUR
CONTENUS
L1 + L2
CODE
ISO
LANGUEINTERNAUTES
L1 + L2
POPULATION
MONDIALE
L1 + L2
POPULATION
CONNECTÉE
L1 + L2
CONTENUS
L1 + L2
PRÉSENCE
VIRTUELLE
L1 + L2
PRODUCTIVITÉ 
DES CONTENUS
L1 + L2
1engAnglais15.34%13.74%68.78%20.03%1.461.31
2zhoChinois macro17.53%14.63%73.84%19.05%1.301.09
3spaEspagnol6.70%5.27%78.31%7.78%1.481.16
4araArabe macro4.70%4.23%68.39%3.91%0.920.83
5hinHindi4.36%5.75%46.72%3.84%0.670.88
6rusRusse3.34%2.41%85.52%3.78%1.571.13
7fraFrançais3.11%2.92%65.52%3.47%1.191.12
8porPortugais2.98%2.49%73.71%3.16%1.271.06
9jpnJaponais1.57%1.16%82.97%2.23%1.911.42
10deuAllemand, Standard1.85%1.16%90.63%2.20%1.751.19

Méthodologie

La nouvelle méthode de l’observatoire consiste à approcher indirectement la quantité relative de contenu Web par langue. Pour cela, elle prend également en compte des facteurs cruciaux qui sont souvent ignorés lors de la description de la présence d’une langue dans l’Internet, mais qui devraient être pris en compte pour éviter les erreurs ou les biais.

Tout d’abord, l’équipe examine l’existence probable d’une « loi économique » relative à la Toile, qui lie l’offre (c’est-à-dire les contenus Web disponible dans une langue) à la demande (c’est-à-dire le nombre de locuteurs de cette langue qui sont connectés à l’internet). Les résultats de nos études antérieures suggèrent que plus il y a de locuteurs d’une langue donnée connectés à l’Internet, plus il y a de pages web dans cette langue.

En outre, d’autres études antérieures montrent que les internautes préfèrent souvent communiquer dans leur langue maternelle lorsque du contenu est disponible dans cette langue, mais qu’ils sont heureux d’utiliser leur(s) deuxième(s) langue(s) en l’absence de ce contenu. Dans certains cas, les internautes peuvent également créer du contenu dans leur deuxième langue pour des raisons économiques et utiliser des services de traduction pour ce faire.

La présence d’une langue en ligne est également liée à l’importance du trafic Internet dans différents sites, au nombre d’abonnements à des réseaux sociaux et aux progrès réalisés par différents pays en termes de services citoyens liés à l’Internet. Les indicateurs de présence dans l’internet créés par les chercheurs prennent en compte l’ensemble de ces facteurs, ce qui permet de dresser un tableau plus détaillé de l’ampleur et des modalités de la présence de différentes langues dans l’internet.

Cybergéographie des familles de langues

Une analyse de l’évolution linguistique de l’Internet d’un point de vue géographique.

Notes de mise à jour et versions précédentes

Si vous souhaitez avoir une meilleure idée de la méthode sans lire les articles publiés et indépendamment des dernières données, rendez-vous sur la version 3.0 pour laquelle un effort d’explication et d’affichage des résultats a été réalisé.

Version 4.0 (mai 2023)

Mises à jour de la méthodologie dans cette version

1) Dans l’intégration des données Ethnologue, Arabe Standard (arb) n’a pas été calculé comme deuxième L1 pour tous les pays concernés, à l’exception de l’Arabie Saoudite. La raison en est que l’un des principes fondateurs du modèle est qu’il n’y a qu’une seule L1 et que la macro-langue ara ne peut pas inclure deux fois la même population en tant que L2.

2) En ce qui concerne l’inclusion de l’indicateur de soutien numérique (DLS) de la source Assessing Digital Language Support on a Global Scale, il est défini pour chaque langue, ce qui soulève la question de savoir comment gérer les macro-langues. La décision prise a été d’attribuer à chaque macro-langue l’indicateur le plus élevé de l’ensemble des langues appartenant à cette macro-langue.

3) L’indicateur interface du modèle est maintenant calculé comme la moitié de la somme de l’indicateur précédent plus le DLS (qui a une valeur entre 0 et 1) et en recalculant les résultats pour les normaliser à 100%. Cet ajout réduit le biais de cet indicateur en augmentant potentiellement le poids de nombreuses langues qui étaient absentes des interfaces d’application ou des programmes de traduction et dont le poids était nul. Pour le reste des langues, il n’induit pas de changements notables.

Version 3.2 (avril 2023)

Mise à jour par l’UIT du % de personnes connectées par pays

Résumé

  • Le pourcentage total de personnes connectées dans le monde est passé de 64 % à 67 % en un an.
  • L’UIT a repris l’offre d’estimations dans les pays où aucune donnée officielle n’est proposée par le gouvernement.
  • Nombreux changements importants dans les données de connectivité par pays, avec une forte croissance ou baisse.
  • Pratiquement aucun changement pour les premières langues
  • La forte croissance de la connectivité en Afrique entraîne une augmentation de plus de 10 % des langues africaines
  • Les signes de progrès des moins connectés commencent à apparaître : le français progresse grâce au progrès de connectivite de l’Afrique, ainsi que les langues africaines ; les langues asiatiques continuent de progresser, à l’exception du chinois.
  • La croissance de la population arabe connectée s’est arrêtée
Version 3.1 (août 2022)

Mise à jour par la Banque mondiale (% de personnes connectées par pays), y compris comparaison avec V3.c

Version 3.c (août 2022)

Correction d’une erreur dans la V3, avec un impact marginal

Version 3.0 (mars 2022)

Remaniement du modèle, obtention de la version finale, tous les biais importants étant maintenant contrôlés.

Résumé

Plus qu’une nouvelle version, il s’agit de l’arrivée à maturité de la méthode, puisque tous les biais sont désormais maîtrisés à un seuil acceptable, et que les indicateurs produits sont fiables dans un intervalle de confiance de ±20%.

L’Observatoire a le plaisir de partager les résultats de la version 3 de son modèle de calcul des indicateurs de présence des langues dans l’Internet, qui, comme pour la version 2, annoncée en 2021, traite les 329 langues de plus d’un million de locuteurs natifs.

Un intervalle de confiance de ±20% peut sembler large si l’on applique les critères d’autres travaux statistiques, mais pour les données relatives à la place des langues dans l’Internet, un sujet qui a toujours été très difficile à approcher et victime d’une désinformation chronique, c’est un exploit.

Tous les résultats sont disponibles sous licence CC-BY-SA 4.0.

Version 2.0 (2021)

Amélioration du contrôle des biais du ce qui permet d’ atteindre 329 langues

Résumé

En février 2021 démarre un projet de mesure du portugais dans l’Internet et de comparaison avec d’autres langues, coordonné par la Chaire UNESCO sur les politiques publiques pour le multilinguisme, réalisé par l’Observatoire de la diversité linguistique et culturelle dans l’Internet et sous le soutien du Département culturel et éducatif du ministère brésilien des Affaires étrangères dans le cadre de l’Institut international de la langue portugaise. Les premiers résultats seront produits d’ici mai 2021 et les produits complets d’ici août 2021.

L’étude bénéficiera de quelques améliorations notables:
– Utilisation de la dernière base de données Ethnologue pour les données démolinguistiques
– Traitement des locuteurs de L2 par pays au lieu de global
– Actualisation et extension des indicateurs de langue et de pays
– Extension de la couverture des langues

Version 1.2 (2019)

Offre une comparaison entre les résultats de 2015, 2016 et 2017 en utilisant la version 2017 et en jouant avec les données de l’UIT des années précédentes.

Notes méthodologiques

1 – Seules les données de l’UIT ont été mises à jour en 2016 et 2017
2- Une comparaison complète nécessiterait la mise à jour des données démo-linguistiques ET des différents micro-indicateurs de présence de langues ou de pays
3-. Cependant, les données mises à jour sont celles qui ont le plus d’importance dans le modèle et offrent donc une indication crédible des tendances
4- Il est important de comprendre que les pourcentages d’augmentation ou de diminution ne sont pas absolus, mais relatifs au reste des langues.

Synthèse des résultats

En ce qui concerne les langues les plus puissantes, les évolutions sont lentes même s’il existe une nette différence entre
les langues qui progressent très fortement : Hindi et Malais
les langues qui progressent fortement : Le coréen, l’ourdou, l’arabe et le portugais
les langues qui continuent leur progression régulière ; l’espagnol et le polonais
les langues en déclin régulier : le japonais, le russe et le chinois
les langues en fort déclin : l’allemand, le français, l’italien et dans une moindre mesure l’anglais.
Notons que l’arabe passe devant le japonais et l’ourdou devant le polonais et le coréen

Dans les meilleures progressions apparaissent les langues africaines et asiatiques, puis apparaissent le kabyle, l’arabe, le turc et l’arménien en forte progression.
Quelques langues européennes suivent en milieu de classement et en progression stable comme le roumain, l’ukrainien, le portugais, l’albanais et l’espagnol.
Le polonais est la dernière langue en faible progression et se produit le premier faible déclin du russe et du chinois, suivi de l’hébreu et du suédois
La plupart des langues occidentales affichent logiquement un déclin relatif, conséquence de la saturation des connexions (90% des personnes connectées)
L’anglais poursuit un déclin régulier et le français encore plus, signe que l’Afrique francophone est lente dans sa lutte contre la fracture numérique.
En fin de classement, un fort recul des langues locales des pays asiatiques ou africains (souvent francophones) qui restent bloquées dans la fracture numérique.

Version 1.0 (2017)

Début d’une nouvelle méthode pour 129 langues.

Résumé

L’observatoire a mesuré la place des langues latines, de l’anglais et de l’allemand dans l’Internet, entre 1997 et 2007.

Après 10 ans d’éclipse, due à l’évolution des moteurs de recherche, nous sommes de retour, grâce au soutien de l’Organisation Internationale de la Francophonie et de MAAYA, avec une nouvelle méthode de production d’indicateurs pour les 140 langues de plus de 5 millions de locuteurs.

Les projets d’OBDILCI

  • Indicateurs de la présence des langues dans l’Internet
  • Les langues de France dans l’Internet
  • Le français dans l’Internet
  • Le portugais dans l’Internet
  • L’espagnol dans l’Internet
  • IA et multilinguisme
  • DILINET
  • etc…