MÉTHODOLOGIE – V3.0 (mars 2022)

Indicateurs de la présence d’une langue dans l’internet

NOTE : Il s’agit d’une version archivée de l’étude. Cliquez ici pour consulter la version la plus récente

Processus méthodologique de base – V3.0 (mars 2022)

Le modèle utilise Ethnologue comme source de données démolinguistiques (répartition des locuteurs L1 et L2 par pays), et l’UIT et la Banque mondiale pour les données de connectivité (% de personnes connectées à l’internet par pays) et un grand nombre de sources de données (*) pour produire 5 indicateurs :

  • Internautes : % de personnes connectées par langue
  • Trafic : % du trafic par langue (travail statistique basé sur les applications de mesure de trafic Alexa et SimilarWeb appliquées à plusieurs centaines de sites web sélectionnés) (**)
  • Utilisation : % d’utilisation de l’Internet par langue : à partir de données réparties entre les les abonnés aux principaux réseaux sociaux, l’infrastructure de connexion (données de la Banque mondiale), les applications ouvertes, le streaming et le commerce électronique (T-Index de Translated).
  • Interfaces et langues de traduction : comptabiliser la présence des langues dans une large gamme d’interfaces d’applications et d’applications de traduction en ligne
  • Index : mesurer la force des pays en termes d’indicateurs de la société de l’information et les transformer en langues (24 indicateurs différents).

La moyenne de ces indicateurs est considérée comme une bonne approximation du pourcentage de contenus dans un intervalle de confiance de -20% +20%.

(*) La plupart des sources proposent des données par pays. Les données par langue sont obtenues par pondération avec les données démolinguistiques.

(**) La plupart des sources ne couvrent pas tous les pays ; les techniques d’extrapolation utilisées sont la pondération par le pourcentage de personnes connectées ou l’utilisation de l’approche par quartile.

Pourquoi la moyenne des indicateurs précédents serait-elle une bonne approximation du pourcentage de contenus web pour chaque langue ?

La méthode la plus logique pour mesurer la présence des langues dans la Toile semble être l’application d’un algorithme de reconnaissance linguistique fiable sur toutes les pages Web existantes et réaliser le comptage…

Oui… mais le Web est trop vaste pour que cette méthode soit applicable dans la pratique et les résultats perdent de leur sens pour deux raisons principales :

  1. L’échantillonnage censé représenter l’ensemble de l’univers est biaisé
  2. L’absence de prise en compte du multilinguisme

et les résultats sont extrêmement biaisés pour ces deux raisons.

Il ne reste que deux possibilités :

  1. Pour ceux qui utilisent la méthode logique, se concentrer sur les biais et donner l’attention nécessaire au multilinguisme.
  2. Pour les autres, utilisez d’autres méthodes.

La raison d’être de notre méthode alternative

Les données sur lesquelles on peut s’appuyer, en raison de leurs biais très limités, sont :

  • données démolinguistiques (répartition des locuteurs L1+L2 par pays)
  • données sur les taux de connexion à l’internet (% de personnes connectées à l’internet par pays).

À partir de ces deux sources et d’une hypothèse de travail selon laquelle toutes les langues ont le même taux de connexion dans le même pays, il est possible de calculer le taux de connexion par langue.

En l’absence d’autres données, il s’agirait d’une première approximation équitable du contenu par langue, car l’expérience a montré que le pourcentage de contenus semble être lié au pourcentage d’utilisateurs par une sorte de loi économique naturelle.

En considérant que certaines langues font mieux (ou moins bien) que la moyenne en termes de production de contenus, il est possible d’essayer de moduler les chiffres précédents à partir d’autres paramètres indirects.

C’est exactement ce que fait notre modèle, en tenant compte de facteurs tels que le trafic, l’utilisation d’applications, l’existence d’interfaces ou de programmes de traduction, l’étendue des applications de gouvernement électronique, de données ouvertes et d’autres attributs de la société de l’information.

Au-delà de l’indicateur principal des locuteurs connectés à l’Internet, on peut considérer que les langues sont, pour des raisons économiques, sociales, culturelles, d’éducation au réseau ou autres, génératrices de plus ou moins de contenus en conséquence de :

  • plus ou moins de trafic internet, pour des raisons tarifaires, culturelles ou éducatives,
  • plus ou moins d’abonnés aux applications les plus visitées
  • plus ou moins de soutien à la société de l’information là où vivent les locuteurs (par ex. gouvernement électronique)
  • leur absence (ou leur présence) dans les interfaces d’application ou les programmes de traduction
  • et, en général, leur niveau de soutien technologique au monde numérique, qui peut considérablement limiter ou favoriser leur utilisation.

En règle générale, les contenus sont produits par des locuteurs L1, mais les locuteurs L2 d’une langue donnée peuvent également décider de générer des contenus pour des raisons économiques (il n’est donc pas étonnant que la productivité de certaines langues majeures soit si élevée par rapport à d’autres !)

La méthode indirecte que nous proposons ne peut évidemment pas remplacer une mesure réelle. Cependant, en l’absence d’une telle mesure, et dans le contexte de résultats extrêmement biaisés provenant de mesures incomplètes, elle constitue une meilleure approximation, pour autant qu’elle reflète dûment ces différents facteurs.

La méthode consiste essentiellement à obtenir la répartition des contenus par langue en tant que modulation de la répartition des locuteurs connectés par langue, en fonction de divers paramètres mesurés.

Évidemment, comme pour toute approche statistique, tous les biais doivent être exposés, explicités et analysés…

Évolution des biais à travers les versions de la méthode

ÉLÉMENTVERSION 1VERSION 2VERSION 3
Source linguistique Yoshua (2017)Ethnologue #24 (2021)
Les experts peuvent être en désaccord avec certaines données mais il s’agit des meilleures données disponibles.
Ethnologue #24 (2021)
Extrapolation L2Calcul des résultats en L2 à partir de l’extrapolation des résultats en L1. Un fort biais favorise les langues fortement présentes dans les pays en développement (principalement l’anglais et le français).Résolu
Ethnologue fournit des données en L2 donc ce biais disparaît..
Idem
Hypothèse de pondération principaleTous les locuteurs de chaque pays sont calculés avec le même % de connectivité.
Léger biais en défaveur des langues européennes dans les pays en développement et en faveur des langues d’immigration dans les pays développés.
Idem

Dans la mesure où le modèle n’est pas utilisé pour comparer les langues au sein d’un même pays et se limite aux locuteurs dont la population est supérieure à un million, le biais est acceptable.
Idem

Cette hypothèse de travail est la base du modèle car elle permet la plupart des calculs en tant que modulation de la valeur autour du % de personnes connectées par pays.
Techniques pour extrapolation des sourcesLes biais favorisent les pays les plus connectés mais les effets sont considérés comme marginaux (surtout lorsque la source couvre plus de 70% du total).IdemIdem

Biais des sources : 0 = totalement biaisé – 20 = absence totale de biais

ÉLÉMENTVERSION 1VERSION 2VERSION 3
Internautes18
L’UIT est une source fiable avec des mises à jour annuelles*
15
L’UIT a cessé de mettre à jour ses estimations lorsqu’aucune donnée n’a été fournie par les responsables des pays.
19
La Banque mondiale a repris les données et les mises à jour sont fréquentes
Trafic13
Alexa est fortement biaisé en défaveur des langues asiatiques et légèrement biaisé en faveur des langues européennes (à l’exception du portugais). Le biais de sélection est plus ou moins contrôlé par l’utilisation de la moyenne tronquée à 20 %.
11
Le biais d’Alexa contre les pays asiatiques semble surmonté mais un nouveau biais et une erreur affectent maintenant les pays européens.
16
Technique mise en œuvre pour annuler le biais de sélection. Utilise un mélange des résultats de Alexa et SimilarWeb. Un petit biais subsiste qui affecte de nombreuses langues européennes.
(*) Les biais de l’outil se reflètent dans le résultat de la Chine, qui est disproportionné.
Utilisation12
S’appuient sur les données des principaux réseaux sociaux. Biaisé par rapport aux langues non occidentales.
12 
Idem
15
Intégration des réseaux sociaux non occidentaux. Quelques améliorations encore possibles pour la V4.
Interface19
Il s’agit de données objectives et l’échantillonnage est large.
19 Idem19 Idem
Indexes15
L’échantillonnage doit être élargi.
18
L’échantillonnage est proche de l’exhaustivité.
18 Idem
Contenu5
Dépend fortement des statistiques de Wikimedia qui sont excellentes mais qui biaisent fortement les langues non occidentales et favorisent fortement certaines langues (français, hébreu, suédois…).
8
Techniques utilisées pour contrôler les biais statistiques de Wikimedia.
SUPPRIMÉ 
Après d’intenses efforts pour inclure toutes les encyclopédies en ligne au-delà de Wikipédia, il est conclu qu’il est préférable de supprimer cet indicateur des entrées car il est biaisé par nature.

(*) L’utilisation des sites web les mieux classés défavorise les pays ayant un taux de maîtrise de l’information plus élevé, où une plus grande partie du trafic va vers des sites web qui ne sont pas en tête de liste.

Résumé des biais

La V1 était fortement biaisée contre les langues non européennes, et en même temps biaisée en faveur des quelques langues européennes fortement présentes dans les pays en développement à faible taux de connectivité (principalement l’anglais et le français).

V2 a résolu le deuxième biais principal et réduit le biais négatif lié aux langues non européennes, mais pas suffisamment, car l’indicateur d’entrée contenus reste fortement biaisé.

La V3 a résolu le biais des contenus en le supprimant en entrée et a supprimé presque tous les biais négatifs liés aux langues non européennes. Globalement, il subsiste un léger biais négatif lié aux langues européennes, mais le niveau de fiabilité des résultats s’est amélioré et a atteint un nouveau seuil de qualité.

L’évolution de la méthode a permis de passer d’un fort biais négatif en faveur des langues non européennes à un léger biais négatif en faveur des langues européennes… et à un possible biais positif en faveur du chinois en raison du nouveau processus de l’indicateur de trafic.

Cela dit, les données sont à prendre avec précaution, car elles ne sont fiables qu’à l’intérieur d’un intervalle de confiance de –20% +20%, en particulier lorsque l’on compare des résultats bruts qui se trouvent dans cet intervalle (comme le montre la pyramide inversée du contenu principal par langue pour les 4 langues de la position 4).

Améliorations potentielles pour la version 4

La productivité du contenu est mesurée sur la base des chiffres L1+L2. Il serait très utile de vérifier la valeur d’un autre facteur de productivité du contenu basé uniquement sur L1 ; comme la version 3 du modèle calcule tout sur la base de L1+L2, cela nécessiterait une autre version du modèle.

L’indicateur USAGE peut encore être amélioré et ses biais réduits en se concentrant sur :

  • Sa composante de streaming vidéo en rajoutant d’autres sources que YouTube et Netflix .
  • Sa composante « données ouvertes » en complémentant la source unique et mettant l’accent sur les statistiques relatives aux données ouvertes, aux MOOC, etc.
  • Les biais sont passés d’un forte préjudice vers les langues non européennes à un faible préjudice aux langues européennes, ce qui doit être corrigé.

L’indicateur TRAFFIC donne un résultat pour le chinois disproportionné par rapport aux autres langues. Ce point doit être examiné. L’impact sur le résultat final est cependant marginal, une valeur plus proportionnée laisserait le chinois à égalité avec l’anglais et de toute façon dans le même intervalle de confiance.


La vue graphique de l’évolution de la méthode de V1 à V3

Article publié sur notre méthodologie

The method behind the unprecedented production of indicators of the presence of languages in the Internet, sept. 2022

Les projets d’OBDILCI

  • Indicateurs de la présence des langues dans l’Internet
  • Les langues de France dans l’Internet
  • Le français dans l’Internet
  • Le portugais dans l’Internet
  • L’espagnol dans l’Internet
  • IA et multilinguisme
  • DILINET
  • Projets pré-historiques
  • Mort numérique des langues