PROJET PRINCIPAL – V3.0 (mars 2022)

Indicateurs de la présence d’une langue dans l’Internet

NOTE : Il s’agit d’une version archivée de l’étude. Cliquez ici pour consulter la version la plus récente

Introduction – V3.0 (mars 2022)

Version 3 : 3/2022, avec une réduction complète des biais et une redéfinition de certains résultats.

Plus qu’une nouvelle version, il s’agit de l’arrivée à maturité de la méthode puisque tous les biais sont désormais maîtrisés à un seuil acceptable et que les indicateurs produits sont fiables dans un intervalle de confiance de ±20%.

L’Observatoire a le plaisir de partager les résultats de la version 3 de son modèle de calcul des indicateurs de présence des langues sur Internet, qui, comme pour la version 2, annoncée en 2021, traite les 329 langues de plus d’un million de locuteurs natifs.

Un intervalle de confiance de -20% +20% peut sembler large si l’on applique les critères d’autres travaux statistiques, mais pour les données relatives à la place des langues sur Internet, un sujet qui a toujours été très difficile d’accès et sujet à une désinformation chronique, c’est une prouesse.

Tous les résultats sont disponibles sous licence CC-BY-SA 4.0

Que nous apprennent les résultats ? Le gagnant est le multilinguisme.

La transition de l’Internet entre la domination des langues européennes, l’anglais en tête, vers les langues asiatiques et l’arabe, le chinois en tête, est bien avancée et le gagnant est le multilinguisme, mais les langues africaines tardent à prendre leur place.

Résumé du projet

Lire un article court, revu par des pairs et publié en mode ouvert pour présenter les résultats de la V3 en termes d’indicateurs et une synthèse de la méthode : “Resource: Indicators on the Presence of Languages ​​in Internet”, SIGUL2022 a  workshop of LREC22, Marseille, 6/2022, Version française


Note méthodologique

Il s’agit d’une approximation indirecte de l’espace des langues dans la Toile qui utilise différentes sources de données et techniques statistiques.

Tous les calculs et résultats sont effectués sur la base de L1+L2, L1 étant la langue maternelle et L2 la ou les deuxième(s) langue(s).

D’après notre principale source démo-linguistique (Ethnologue #24), la population mondiale (L1) et la population de locuteurs L1+L2 sont les suivantes :

L1 = 7 231 699 136     L2 = 10 361 716 756       L1+L2/L1 = 1.4328

L’intervalle de confiance de tous les chiffres produits est estimé à ±20%.

Lisez les résultats ci-dessous : le pourcentage de contenus Web en anglais est supérieur à 16 % et inférieur à 24 %, tandis que le pourcentage de contenus dans les autres langues se situe entre 18 % et 26 %.

Résultats de l’étude de mars 2022 (V3.0)

Results of the LC2022 (March 2022, V3.0) Study

Tous les indicateurs pour 30 langues avec un pourcentage de contenu plus élevé

RANG
CONTENUS
L1+L2
ISOLANGUES%
INTERNAUTES
L1+L2
%
POPULATION
MONDIALE
L1+L2
%
LOCUTEURS
CONNECTÉS
%
CONTENUS
L1+L2
%
PRÉSENCE
VIRTUELLE
L1+L2
%
PRODUCTIVITÉ
CONTENUS
L1+L2
1zhoMacro chinois18,46%14,72%71,38%21,60%1,471,17
2engAnglais14,83%13,01%64,86%19,60%1,511,32
3spaEspagnol6,79%5,24%73,72%7,85%1,501,16
4hinHindi4,19%5,80%41,16%3,76%0,650,90
5rusRusse3,51%2,49%80,32%3,76%1,511,07
6fraFrançais2,98%2,58%65,80%3,33%1,291,12
7porPortugais2,99%2,49%68,43%3,13%1,261,05
8araMacro arabe3,97%3,53%63,99%3,09%0,870,78
9jpnJaponais1,99%1,22%92,63%2,66%2,181,34
10deuAllemand, Standard2,04%1,30%89,17%2,37%1,821,16
11msaMacro malais2,36%2,36%56,93%1,96%0,830,83
12turTurc1,17%0,85%78,05%1,14%1,350,98
13itaItalien0,87%0,66%75,83%1,00%1,531,14
14korCoréen0,90%0,79%65,16%0,98%1,241,09
15fasMacro persan1,08%0,81%75,91%0,88%1,090,82
16benBengali1,11%2,58%24,55%0,88%0,340,79
17vieVietnamien0,92%0,74%70,96%0,85%1,150,92
18urdUrdu0,95%2,22%24,38%0,66%0,300,70
19thaThaï0,80%0,59%77,95%0,65%1,120,82
20polPolonais0,60%0,39%87,09%0,63%1,591,04
21marMarathi0,69%0,96%41,06%0,58%0,600,83
22telTelugu0,68%0,92%41,69%0,56%0,600,82
23tamTamoul0,61%0,82%42,15%0,51%0,620,83
24javJavanais0,62%0,66%53,76%0,44%0,660,70
25nldNéerlandais0,38%0,24%91,14%0,41%1,731,08
26gujGujarati0,44%0,60%41,47%0,36%0,610,83
27ukrUkrainien0,40%0,32%71,02%0,35%1,090,88
28kanKannada0,41%0,57%41,11%0,33%0,590,82
29ronRoumain0,32%0,23%79,57%0,30%1,290,93
30azeMacro azerbaïdjanais0,33%0,23%81,54%0,28%1,210,85
  RESTE22,60%30,10% 15,13%  
TOTAL100,00%100,00 %63,49%100,00 %11

LÉGENDE

ISO = 3 lettres ISO 639 code pour les langues
L1+L2 = locuteurs de première et deuxième langue
Internautes = % de locuteurs connectés
Population mondiale= % de la population de locuteurs par rapport au total mondial de locuteurs L1+L2
% LOCUTEURS CONNECTÉS = % de locuteurs L1+L2 connectés à l’Internet
CONTENUS = % de pages Web dans la langue par rapport au total de pages Web (PAS sur le total des sites Web !)
PRÉSENCE VIRTUELLE = le rapport entre CONTENUS et population mondiale pour chaque langue
PRODUCTIVITÉ DES CONTENUS = le rapport entre CONTENUS et LOCUTEURS CONNECTÉS pour chaque langue

Résultats complets

Comparaison des résultats avec ceux d’autres fournisseurs

Télécharger les résultats complets pour les 329 langues

Vidéos

The Method Behind the Unprecedented Production of Indicators of the Presence of Languages in the Internet

Date de sortie : Mars 2023

Durée : 39min

La méthode derrière la production sans précédent d’indicateurs de la présence des langues dans l’Internet

Date de sortie : Mars 2023

Durée: 35min


Crédits

OBDILCI Logo
La Francophonie
Instituto Internacional de Lingua Portuguêsa (IILP)
Gov.BR
Unesco Chair on Language Policies for Multilingualism

Les projets d’OBDILCI

  • Indicateurs de la présence des langues dans l’Internet
  • Les langues de France dans l’Internet
  • Le français dans l’Internet
  • Le portugais dans l’Internet
  • L’espagnol dans l’Internet
  • IA et multilinguisme
  • DILINET
  • Projets pré-historiques