PROJET PRINCIPAL – V3.0 (mars 2022)
Indicateurs de la présence d’une langue dans l’Internet

NOTE : Il s’agit d’une version archivée de l’étude. Cliquez ici pour consulter la version la plus récente
Introduction – V3.0 (mars 2022)
Version 3 : 3/2022, avec une réduction complète des biais et une redéfinition de certains résultats.
Plus qu’une nouvelle version, il s’agit de l’arrivée à maturité de la méthode puisque tous les biais sont désormais maîtrisés à un seuil acceptable et que les indicateurs produits sont fiables dans un intervalle de confiance de ±20%.
L’Observatoire a le plaisir de partager les résultats de la version 3 de son modèle de calcul des indicateurs de présence des langues sur Internet, qui, comme pour la version 2, annoncée en 2021, traite les 329 langues de plus d’un million de locuteurs natifs.
Un intervalle de confiance de -20% +20% peut sembler large si l’on applique les critères d’autres travaux statistiques, mais pour les données relatives à la place des langues sur Internet, un sujet qui a toujours été très difficile d’accès et sujet à une désinformation chronique, c’est une prouesse.
Tous les résultats sont disponibles sous licence CC-BY-SA 4.0
Que nous apprennent les résultats ? Le gagnant est le multilinguisme.
La transition de l’Internet entre la domination des langues européennes, l’anglais en tête, vers les langues asiatiques et l’arabe, le chinois en tête, est bien avancée et le gagnant est le multilinguisme, mais les langues africaines tardent à prendre leur place.
Résumé du projet
Lire un article court, revu par des pairs et publié en mode ouvert pour présenter les résultats de la V3 en termes d’indicateurs et une synthèse de la méthode : “Resource: Indicators on the Presence of Languages in Internet”, SIGUL2022 a workshop of LREC22, Marseille, 6/2022, Version française
Note méthodologique
Il s’agit d’une approximation indirecte de l’espace des langues dans la Toile qui utilise différentes sources de données et techniques statistiques.
Tous les calculs et résultats sont effectués sur la base de L1+L2, L1 étant la langue maternelle et L2 la ou les deuxième(s) langue(s).
D’après notre principale source démo-linguistique (Ethnologue #24), la population mondiale (L1) et la population de locuteurs L1+L2 sont les suivantes :
L1 = 7 231 699 136 L2 = 10 361 716 756 L1+L2/L1 = 1.4328
L’intervalle de confiance de tous les chiffres produits est estimé à ±20%.
Lisez les résultats ci-dessous : le pourcentage de contenus Web en anglais est supérieur à 16 % et inférieur à 24 %, tandis que le pourcentage de contenus dans les autres langues se situe entre 18 % et 26 %.
Résultats de l’étude de mars 2022 (V3.0)

Tous les indicateurs pour 30 langues avec un pourcentage de contenu plus élevé
| RANG CONTENUS L1+L2 | ISO | LANGUES | % INTERNAUTES L1+L2 | % POPULATION MONDIALE L1+L2 | % LOCUTEURS CONNECTÉS | % CONTENUS L1+L2 | % PRÉSENCE VIRTUELLE L1+L2 | % PRODUCTIVITÉ CONTENUS L1+L2 |
|---|---|---|---|---|---|---|---|---|
| 1 | zho | Macro chinois | 18,46% | 14,72% | 71,38% | 21,60% | 1,47 | 1,17 |
| 2 | eng | Anglais | 14,83% | 13,01% | 64,86% | 19,60% | 1,51 | 1,32 |
| 3 | spa | Espagnol | 6,79% | 5,24% | 73,72% | 7,85% | 1,50 | 1,16 |
| 4 | hin | Hindi | 4,19% | 5,80% | 41,16% | 3,76% | 0,65 | 0,90 |
| 5 | rus | Russe | 3,51% | 2,49% | 80,32% | 3,76% | 1,51 | 1,07 |
| 6 | fra | Français | 2,98% | 2,58% | 65,80% | 3,33% | 1,29 | 1,12 |
| 7 | por | Portugais | 2,99% | 2,49% | 68,43% | 3,13% | 1,26 | 1,05 |
| 8 | ara | Macro arabe | 3,97% | 3,53% | 63,99% | 3,09% | 0,87 | 0,78 |
| 9 | jpn | Japonais | 1,99% | 1,22% | 92,63% | 2,66% | 2,18 | 1,34 |
| 10 | deu | Allemand, Standard | 2,04% | 1,30% | 89,17% | 2,37% | 1,82 | 1,16 |
| 11 | msa | Macro malais | 2,36% | 2,36% | 56,93% | 1,96% | 0,83 | 0,83 |
| 12 | tur | Turc | 1,17% | 0,85% | 78,05% | 1,14% | 1,35 | 0,98 |
| 13 | ita | Italien | 0,87% | 0,66% | 75,83% | 1,00% | 1,53 | 1,14 |
| 14 | kor | Coréen | 0,90% | 0,79% | 65,16% | 0,98% | 1,24 | 1,09 |
| 15 | fas | Macro persan | 1,08% | 0,81% | 75,91% | 0,88% | 1,09 | 0,82 |
| 16 | ben | Bengali | 1,11% | 2,58% | 24,55% | 0,88% | 0,34 | 0,79 |
| 17 | vie | Vietnamien | 0,92% | 0,74% | 70,96% | 0,85% | 1,15 | 0,92 |
| 18 | urd | Urdu | 0,95% | 2,22% | 24,38% | 0,66% | 0,30 | 0,70 |
| 19 | tha | Thaï | 0,80% | 0,59% | 77,95% | 0,65% | 1,12 | 0,82 |
| 20 | pol | Polonais | 0,60% | 0,39% | 87,09% | 0,63% | 1,59 | 1,04 |
| 21 | mar | Marathi | 0,69% | 0,96% | 41,06% | 0,58% | 0,60 | 0,83 |
| 22 | tel | Telugu | 0,68% | 0,92% | 41,69% | 0,56% | 0,60 | 0,82 |
| 23 | tam | Tamoul | 0,61% | 0,82% | 42,15% | 0,51% | 0,62 | 0,83 |
| 24 | jav | Javanais | 0,62% | 0,66% | 53,76% | 0,44% | 0,66 | 0,70 |
| 25 | nld | Néerlandais | 0,38% | 0,24% | 91,14% | 0,41% | 1,73 | 1,08 |
| 26 | guj | Gujarati | 0,44% | 0,60% | 41,47% | 0,36% | 0,61 | 0,83 |
| 27 | ukr | Ukrainien | 0,40% | 0,32% | 71,02% | 0,35% | 1,09 | 0,88 |
| 28 | kan | Kannada | 0,41% | 0,57% | 41,11% | 0,33% | 0,59 | 0,82 |
| 29 | ron | Roumain | 0,32% | 0,23% | 79,57% | 0,30% | 1,29 | 0,93 |
| 30 | aze | Macro azerbaïdjanais | 0,33% | 0,23% | 81,54% | 0,28% | 1,21 | 0,85 |
| RESTE | 22,60% | 30,10% | 15,13% | |||||
| TOTAL | 100,00% | 100,00 % | 63,49% | 100,00 % | 1 | 1 |
LÉGENDE
Résultats complets
Comparaison des résultats avec ceux d’autres fournisseurs
Télécharger les résultats complets pour les 329 langues
Vidéos
Crédits


Les projets d’OBDILCI
- Indicateurs de la présence des langues dans l’Internet
- Les langues de France dans l’Internet
- Le français dans l’Internet
- Le portugais dans l’Internet
- L’espagnol dans l’Internet
- IA et multilinguisme
- gTLDs linguistiques
- DILINET
- Projets pré-historiques
- Mort numérique des langues





