PROJET PRINCIPAL -METHODES
Compilation/évaluation de toutes les méthodes identifiées
COMPARAISON ENTRE DIFFÉRENTES APPROCHES POUR MESURER LA PROPORTION DES LANGUES EN LIGNE ET SURVOL HISTORIQUE
Si vous préférez lire hors connection vous pouvez télécharger le rapport en anglais : Inventory and comparisons of all methods for the measure of languages online
Jusqu’à présent, cinq approches différentes ont été identifiées de la part d’entreprises, d’universités ou d’organisations de la société civile offrant, à ce jour, des chiffres sur la proportion des langues en ligne. Ce document les expose et tente de tirer des conclusions de leurs similitudes et différences, ainsi que de leurs bais éventuels.
Les méthodes et les chiffres de la période initiale, de 1997 à 2007, sont présentés, superficiellement, à la fin de ce document. Les détails ont été exposés et analysés dans le rapport de l’UNESCO Douze ans de mesure de la diversité linguistique sdans l’Internet : bilan et perspectives, D. Pimienta, D. Prado, A. Blanco- 2009 – .
À la fin de la première période, en 2007, il était prouvé que la proportion d’anglais sur le web était d’environ 50 %; aujourd’hui toutes les évidences convergent vers une place de l’anglais dans la Toile à l’intérieur de la fenêtre 20% – 30%, malgré les données d’une source très populaire mais biaisée, qui le placerait au dessus de 50%.
I – APPROCHES ACTUELLES POUR MESURER LES LANGUES EN LIGNE
APPROCHE 1 : W3TECHS
Source: https://w3techs.com/technologies/overview/content_language
Méthode : Application quotidienne d’un algorithme de détection de la langue sur le million de sites web les plus visités, tels que répertoriés par TRANCO.
Type : Société de services Internet spécialisée dans les enquêtes sur les technologies Web
Couverture : Quotidiennement depuis 2011
Méthodologie exposée: partiellement https://w3techs.com/technologies
Méthodologie évaluée par des pairs: non
Discussion sur les biais : non
Intervalle de confiance des données : Non disponible
Nombre de langues couvertes: 40
Notre diagnostic : Nous soupçonnons que leur algorithme attribue une langue unique par site web, par défaut l’anglais, s’il s’agit d’un site multilingue incluant l’anglais comme option. Cela entraine un biais très fort en faveur de l’anglais. Il y a d’autres biais à comprendre (comme l’extrapolation du million de visiteurs supplémentaires à l’ensemble du web, qui favorise l’anglais et les langues européennes), mais le biais principal est celui qui consiste à ne pas prendre en compte le multilinguisme des sites web; il peut conduire à une surévaluation de l’anglais de l’ordre de 100 % (voir la démonstration dans https://obdilci.org/projets/principal/englishweb/ ).
Conclusion: La donnée produite quotidiennement par W3Techs est en fait le pourcentage d’anglais, en tant qu’option linguistique des sites web, et le pourcentage des 40 autres langues, est celui de leur présence quand l’anglais n’est pas une option linguistique, tout cela dans les séries de sites Web appartenant au million le plus visité. En raison de sa longue histoire et du fait que la société est considérée comme fiable pour ses enquêtes sur les technologies du web, elle est devenue, malgré son énorme biais, la principale référence sur le sujet des langues en ligne, pendant longtemps, par beaucoup, y compris les décideurs politiques et les chercheurs, ce qui est un véritable problème de mésinformation.
APPROCHE 2 : DATAPROVIDER.COM
Source: https://www.dataprovider.com/blog/domains/what-languages-does-the-web-speak/
Méthode : Application unique d’un algorithme de détection de la langue sur la quasi-totalité des sites web existants (99 millions sur 136 millions de sites web valides dont les données sont stockées dans leur base de données).
Type : Société de services Internet spécialisée dans l’analyse de données
Couverture : Une fois, en janvier 2023
Méthodologie exposée : Non. Cependant, ils ont aimablement répondu à toutes nos questions, ce qui nous permet de partager la description suivante, avec leur permission. Ils explorent, en utilisant https://github.com/jmhodges/gocld3 pour la détection (un modèle identifiant un peu plus de 100 langues), l’univers entier des sites web (en 2023, 710 Millions, dont 136M ont été trouvés valides). Notez que leurs chiffres sont extrêmement cohérents avec les statistiques de Netcraft (https://www.netcraft.com/blog/october-2024-web-server-survey/). En 2023, ils ont appliqué la détection de la langue à un sous-ensemble de 99 millions, soit 73 % du total, filtré par pays (à ce stade, seuls 62 pays étaient inclus, soit moins de 30 %). Ils conservent les informations relatives aux différentes versions linguistiques, lorsqu’elles sont spécifiées dans l’instruction HTML hreflang=. Cependant ces donnéees n’ont pas encore été utilisées dans les statistiques publiées en 2023, qui ne prennent donc en compte qu’une seule langue, la langue principale des sites web.
Méthodologie évaluée par des pairs: non
Discussion sur les biais : Non. Outre le même biais de multilinguisme qui s’applique aux résultats de W3Techs, il existe un biais résultant des pays exclus de la sélection.
Intervalle de confiance des données : Non disponible
Nombre de langues couvertes : 107
Notre diagnostic : Il s’agit d’une approche très intéressante et prometteuse, puisque cette société dispose d’une base de données incluant l’ensemble des sites web existant (aujourd’hui, 163 M valides sur 856 M au total) et le potentiel d’appliquer, partiellement, la mesure permettant de prendre en compte le multilinguisme des sites web (partiellement, car suite à nos études, nous estimons que le paramètre hreflang n’est utilisé que par 40 % des sites web multilingues). A ce stade, les résultats de la mesure doivent être pris avec la même prudence que ceux de W3Techs. Si l’on ne tient pas compte du biais de sélection des pays, les données pourraient confirmer que le pourcentage global de sites web dont l’une des versions est l’anglais est comparable, bien que légèrement inférieur, à celui de l’échantillon Tranco analysé par W3Techs, ce qui est logique. En effet, il est probable que de nombreuses langues européennes, dont l’anglais, ont une probabilité plus élevée de figurer parmi les sites web les plus visités. Cette approche est à suivre avec intérêt car elle a un potentiel d’amélioration vers des résultats aux biais contrôlés et grâce à la transparence de l’entreprise que nous saluons et remercions.
Conclusion : Dans l’hypothèse où l’entreprise investit dans une nouvelle campagne, incluant cette fois les informations d’une partie des sites multilingues, il est possible de mitiger les 2 biais restants.
1) le biais de sélection : étant donnée la liste des pays exclus, l’extrapolation des données manquantes est possible à partir de la combinaison du taux de connexion Internet par pays et des locuteurs par langue dans chaque pays. Il est possible de calculer le pourcentage de locuteurs connectés, dans chaque langue, exclus des données. L’OBDILCI peut fournir, à partir de ces pourcentages, une correction multiplicative à appliquer à chaque compteur de langue et donc atténuer le biais. Cela n’éliminera évidemment pas totalement le biais pour toutes les langues, mais les résultats auront réduit le biais dans une large proportion (notez que cette méthode est largement utilisée dans le modèle OBDILCI pour compléter les statistiques par pays).
2) Le biais résiduel multilingue : d’après nos statistiques approximatives, seuls 40 % des sites web multilingues utilisent l’instruction hreflang pour spécifier la liste des options linguistiques. Ne pas prendre en compte 60 % des cas est un biais important. Il peut toutefois être réduit de manière drastique en multipliant simplement tous les compteurs de langues par 100/60 = 5/3, en partant du principe que le modèle obtenu avec 40 % se reproduira grosso modo pour le reste. Évidemment, l’hypothèse peut être erronée, mais le résultat sera beaucoup moins biaisé avec cette correction. Ainsi, DATAPROVIDER.COM pourrait produire la meilleure approximation de mesure de la proportion des langues dans les contenus web et, avec la même logique, pourrait produire la première approximation sérieuse d’une donnée clé, le taux de multilinguisme du web, à comparer à la même valeur pour les humains (la définition de cet indicateur est : le total des versions linguistiques identifiées divisé par le total des sites web analysés). OBDILCI et DATAPROVIDER.COM ont prévu des discussions début 2025 pour examiner les possibilités de coopération vers des chiffres non biaisés.
APPROCHE 3 : NETSWEEPER
Source: https://www.netsweeper.com/government/top-languages-commonly-used-interneto
Méthode : ils affirment avoir appliqué un algorithme de détection de la langue sur 12 milliards de pages web.
Type : Société de services Internet spécialisée dans le filtrage du web à des fins de sécurité
Couverture : Une fois, en juin 2023
Méthodologie exposée : Non. Pas de réponse aux diverses tentatives de communication.
Méthodologie évaluée par les pairs : Non. Pas de réponse aux diverses tentatives de communication.
Discussion sur les biais : Non fournie. Si l’affirmation selon laquelle ils travaillent sur des pages web, plutôt que sur des sites web, était confirmée, le biais de multilinguisme serait alors surmonté. Il resterait un biais unique à analyser dans la méthode NETSWEEPER, le biais de sélection. Douze milliards de pages web pourraient représenter 30 % de l’ensemble de l’univers des pages web, ce qui est un chiffre élevé ; cependant, selon la manière dont la sélection est effectuée, le biais qui en résulte peut varier de presque nul à important ! Si les pages sont sélectionnées au hasard, le biais est pratiquement nul. Si la sélection est effectuée sur tous les sites web, mais en se limitant à un sous-ensemble de pages de chaque site web, le biais peut varier entre zéro et le même biais multilingue si la sélection favorise les pages appartenant à la version anglaise. Le fait qu’ils donnent le résultat de l’anglais à environ 25 % est peut-être un signe que ce biais est contrôlé. Cependant, en l’absence d’informations sur le processus, cela reste indécidable pour le moment.
Number of languages covered: 47
Notre diagnostic : Si ce qui est affirmé est la réalité, il s’agit d’une méthode exempte du biais multilingue, appliquée à une partie substantielle du Web (personne ne connaît vraiment le nombre de pages Web, des chiffres d’environ 40 milliards sont donnés par https://www.worldwidewebsize.com, ce qui représenterait 30 % de l’univers). Si le biais de sélection est presque nul ou atténué par une technique quelconque, cela pourrait devenir le résultat le plus prometteur sur le sujet. La coïncidence avec de nombreux chiffres de l’OBDILCI est frappante et plaide en faveur d’un biais de sélection contrôlé, mais sans plus d’informations sur la méthode, il ne s’agit que d’une hypothèse.
Conclusion : Il est dommage qu’ils n’aient jamais répondu à plusieurs demandes d’informations méthodologiques sur ce qui reste un candidat sérieux pour la meilleure méthode de proportion de langue sur les contenus web. Nous avons utilisé deux fois le formulaire de contact sur leur site web et nous avons directement envoyé un courrier au CTIO en mars 2024 et nous n’avons obtenu aucune réponse. Espérons qu’à l’avenir, nous obtiendrons ces informations et serons en mesure de conclure le diagnostic.
Message vers Netsweeper, si par hasard vous lisez cette page web, veuillez nous contacter.
APPROCHE 4 : UNIVERSITÉ GRECQUE D’IONAN
Source: https://doi.org/10.3390/fi12040076
Méthode : Ils se concentrent sur les ccTLD de l’Union européenne et sur les contenu en anglais. Ils utilisent un algorithme de détection de la langue sur 100 000 sites web. Ils évitent le biais multilingue en explorant tous les liens internes.
Type : Département universitaire consacré aux arts visuels
Couverture : Une fois, en juin 2019
Méthodologie exposée: Oui, parfaitement transparente
Méthodologie évaluée par les pairs : oui
Discussion sur les biais : non
Intervalle de confiance des données : Non disponible
Nombre de langues couvertes : une, l’anglais
Notre diagnostic : Il s’agit d’une expérience totalement fiable, mais limitée aux ccTLD européens. Elle peut néanmoins servir d’indicateur de la proportion d’anglais dans le monde.
Conclusion : Il s’agit de la première incursion bienvenue depuis longtemps du monde universitaire dans ce domaine. L’étude présente toutes les caractéristiques de robustesse d’un travail universitaire révisé. Cependant, elle cible un sous-ensemble défini du Web et les résultats ne peuvent pas être généralisés à l’ensemble du Web. Quoi qu’il en soit, il s’agit d’un autre argument pour affirmer que la position stable de W3Techs d’environ 50 % d’anglais depuis 2011 est tout simplement absurde. Y a-t-il une raison pour que le pourcentage moyen d’anglais dans les sites web des ccTLD de l’Union européenne avant le Brexit (y compris donc les pays anglophones : Royaume-Uni, Irlande et Malte) soit beaucoup plus faible que dans l’ensemble de l’univers du web ? Nous ne voyons aucune raison, au contraire.
APPROCHE 5 : MÉTHODE PRINCIPALE OBDILCI
Source: https://obdilci.org/projets/principal/
Méthode : il s’agit d’une méthode indirecte basée sur la collecte et l’organisation d’indicateurs multiples. Elle ne peut pas vraiment être considérée comme une mesure, il s’agit plutôt d’une approximation réaliste basée sur quelques hypothèses solides, un sous-ensemble d’entre elles impliquant des biais qui sont discutés en détail.
Type : Organisation de la société civile, travaillant dans ce domaine depuis 1998
Couverture : depuis 2017, une à deux fois par an.
Méthodologie exposée : Oui. Totalement transparente dans l’article https://doi.org/10.3389/frma.2023.1149347
Méthodologie évaluée par les pairs : Oui, voir l’URL précédent.
Discussion sur les biais : Oui, très détaillée et complète, voir l’URL précédent.
Intervalle de confiance des donnéees : large, +-20% (estimé, non calculé)
Nombre de langues couvertes: 361
Notre diagnostic: L’approche indirecte repose sur des données solides concernant le nombre de locuteurs L1 et L2 de chaque langue par pays (Ethnologue), le pourcentage de personnes connectées par pays (UIT), l’hypothèse qu’il existe une loi économique naturelle qui lie la demande (locuteurs d’une langue connectés) et l’offre (contenus pour cette langue), dont la modularité dépend d’un large ensemble de facteurs qui ont été représentés par le plus grand ensemble possible d’indicateurs (trafic, abonnements, présence des langues dans les interfaces et les outils, préparation à la société de l’information…). Il existe une hypothèse de simplification (tous les locuteurs connectés d’un même pays partagent le même pourcentage de connectivité quelque soit la langue) qui est le principal biais et la raison pour laquelle le modèle est limité à une grande population de locuteurs (L1 > 1M). Ce n’est pas une mesure mais c’est une plausibilité solide pour des chiffres dans un large intervalle de confiance et jusqu’à ce qu’une autre méthode soit validée comme ayant ses biais contrôlés, elle reste une approximation sérieuse, couvrant beaucoup plus de langues que les autres méthodes.
Conclusion : Les esprits intéressés et critiques pourraient se demander sincèrement : comment une telle méthode pourrait-elle approcher la réalité en faisant simplement la moyenne de centaine d’indicateurs ? Sachant qu’elle repose sur une hypothèse très théorique (l’existence d’une loi inconnue reliant les internautes par langues et les contenus web par langues), pourrait-on vérifier l’affirmation suivante : cette loi inconnue peut-elle être décrite indirectement afin de permettre des chiffres approximatifs, mais fiables, en collectant de multiples indicateurs et en les traitant statistiquement en utilisant principalement des opérations de pondération ? Nous aimerions apporter une réponse intuitive à cette interrogation raisonnable. L’un des cours de mathématiques les plus impressionnants reçus en pré-doctorat invitait les étudiants à créer l’équation d’une vague atteignant le rivage sur une plage. La physique est très complexe mais le professeur prétendait que les étudiants n’avaient pas besoin de connaître quoi que ce soit de cette physique pour avoir une équation approximative mais pertinente ! Comment est-ce possible? La taille de la hauteur de la vague qui atteint le rivage est le résultat de la houle qui atteint une profondeur progressivement réduite, il suffit de lister tous les paramètres qui entrent en jeu : période de la houle, hauteur de la houle, courbe de la profondeur du rivage… et de les combiner afin d’être cohérents avec leur dimension (distance en mètre, hauteur en mètre, vitesse en mètre par seconde, période en seconde, etc). Créer l’équation la plus simple où la dimension résultante est compatible avec le résultat : la hauteur de la vague est une donnée en mètre donc ainsi doit être la combinaison mathématique de facteurs. L’équation obtenue a toutes les chances d’être une première représentation de la réalité. Et ça marche ! Plus d’informations sur cette technique dans https://en.wikipedia.org/wiki/Dimensional_analysis.
Nous voici dans un contexte différent, il ne s’agit pas de physique complexe mais de big data et de statistiques. Dans un monde idéal, toutes les langues sont égales et la loi est linéaire : en termes de pourcentages mondiaux, il y a autant de contenus que de locuteurs dans chaque langue. Le ratio que l’on appelle productivité des contenus (pourcentage de contenus divisé par pourcentage de locuteurs connectés) est égal à un pour chaque langue, c’est une équation linéaire. On obtient cette donnée linéaire en pondérant la matrice des locuteurs (langues vs pays) avec le vecteur de connectivité (pourcentage de connectés par pays). La réalité est alors que de nombreux facteurs modulent ce ratio au-dessus ou en dessous de 1, en fonction des langues : locuteurs des langues et pays où ils accèdent aux contenus : tarif, bande passante, éducation numérique, applications e-gouvernement, environnement des affaires, capacités technologiques de la langue, présence dans les principales applications, etc. Si vous pouvez obtenir des indicateurs de tous ces paramètres, il y a de bonnes chances, si l’on ne traite que des big data (langues avec un grand nombre de locuteurs), que votre « équation statistique créée » soit une approximation raisonnable. Notez qu’une grande partie des facteurs dépendent des pays plutôt que des langues, mais l’existence de la matrice langues par pays permet de jouer le jeu, en fournissant quelques simplifications, qui apportent certes des biais, mais de tels biais peuvent devenir marginaux avec des grands nombres. De toute évidence, si les résultats du modèle OBDILCI pouvaient être confirmés par des mesures de données réelles, à condition que les biais soient contrôlés, cela renforcerait la confiance…
APPROCHE 6 : PRÉ-ÉTUDES OBDILCI MECILDI
Source: https://obdilci.org
Méthode : Il s’agit d’un effort manuel appliqué à une série de dix fois 100 sites pris au hasard dans la liste TRANCO. Nous avons vérifié manuellement toutes les langues de chaque site, et comment les options linguistiques sont implémentées, à la fois dans l’interface et dans la source HTML, afin d’étudier la stratégie et les tactiques pour pouvoir prendre en compte dans une future approche d’exploration basée sur la détection de langue (voir approche 7). Nous en avons profité pour approximer un indicateur clé totalement inconnu à ce stade : le taux de multilinguisme du Web, défini par le nombre total de versions linguistiques divisé par le nombre total de sites Web (le même taux pour l’ensemble de l’humanité est mesuré à 1,443, d’après la source Ethnologue et nous nous attendons à ce que le Web ait un chiffre plus élevé). Ce chiffre est la clé pour évaluer l’ampleur du biais de ne pas prendre en compte le multilinguisme du Web : par exemple, si sa valeur est de 2, alors le biais est de 100% de surévaluation de la proportion d’anglais. Les premières approximations dans l’exploration manuelle de 1000 sites Web aléatoires de la liste Tranco sont d’environ 2 (avec une variance élevée, donc à prendre avec précaution).
Type: Civil Society Organization
Couverture : deux fois en 2022 et 2024
Méthodologie exposée : Oui. Totalement transparente.
Méthode d’évaluation par les pairs : Oui dans l’article https://doi.org/10.30564/fls.v6i5.7144
Discussion sur les biais : Oui
Intervalle de confiance des donnéees : non
Nombre de langues couvertes : Anglais uniquement
Notre diagnostic : Il s’agit simplement d’une étape intermédiaire créée par l’exploration humaine d’un sous-ensemble limité du web en tant qu’indication de tendance notée avec la moyenne et la covariance. Cela fait partie du projet MECILDI.
APPROCHE 7: MECILDI@OBDILCI
Source: https://obdilci.org
Méthode : OBDILCI prévoit de créer un nouvel outil en 2025 : un logiciel permettant la détection de la langue dans une série de sites web, en tenant compte systématiquement du fait que les sites web peuvent être multilingues. Cet outil servira à différents projets et sera d’abord testé en utilisant la liste Tranco. Des pré-études ont commencé à déterminer des stratégies et des tactiques pour tendre vers la prise en compte complète des langues des sites web. Il s’agit d’un problème complexe en raison de la variété des solutions mises en œuvre dans les sites web, dont beaucoup ne se reflètent pas directement dans le code source visible. Les pré-études ont permis de déterminer quelques statistiques et données approximatives qui seront utiles pour l’atténuation des biais : pourcentage de sites web utilisant des instructions lang=, pourcentage de sites web utilisant des instructions hreflang=, pourcentage de sites web utilisant GoogleTranslate intégré, pourcentages de disposition des options de langue dans l’interface (en haut, sur le côté, en bas, indirectement par option de pays, dans une page de configuration), modèles de codage utilisés pour le multilinguisme… La complexité rendra nécessaire une combinaison de techniques et d’approches, y compris probablement un peu d’IA. Notre puissance de calcul étant limitée, nous avons opté pour une approche statistique : au lieu d’analyser tous les sites web, nous créerons 100 échantillons aléatoires de 1000 sites web et gérerons la distribution statistique pour obtenir la moyenne, la variance et l’intervalle de confiance pour chaque langue et le reste des paramètres.
Type: Civil Society Organization
Couverture : Future (2025)
Méthodologie exposée : Elle le sera
Méthode évaluée par les pairs : Elle le sera.
Discussion sur les biais : Elle le sera
Intervalle de confiance des données : Elle sera calculée par une méthode statistique
Nombre de langues couvertes : 141, les langues présentes à la fois dans le modèle Obdilci et dans GoogleTranslate. En d’autres termes, le sous-ensemble de langues des 250 que traitent GoogleTranslate qui ont plus d’un million de locuteurs L1. Pourquoi en est-il ainsi ? Parce que pour les langues ayant un faible nombre de locuteurs, l’approche statistique choisie ne donnerait pas de résultats sérieux.
Notre diagnostic : Il s’agit d’un projet à réaliser en 2025 ouvrant la voie à de nouvelles recherches.
II – COMPARAISON DES RÉSULTATS POUR L’ANGLAIS
W3Techs 2023 | DATA PROVIDER 1/23 | NET SWEEPER 6/23 | IONAN Univ. 2020 | OBDILCI Main 5/2023 | MECILDI Pre-study 5/2024 | |
Anglais | 57.7% | 51% | 26.3% | 28.4% | 20% | 29% |
COMPARAISON DES PREMIÈRES LANGUES
W3TECHS 11/2024 | DATA PROVIDER 1/23 | NETSWEEPER 6/23 | OBDILCI 5/2024 | |
1 | English 49.4% | English 51.3% | English 26.3% | English 20.4% |
2 | Spanish 6% | Chinese 10.3% | Chinese 19.8% | Chinese 18.9% |
3 | German 5.6% | German 7.3% | Spanish 8.1% | Spanish 7.7% |
4 | Japanese 5% | Spanish 3.9% | Arabic 5% | Hindi 3.8% |
5 | French 4.4% | Japanese 3.7% | Portuguese 4% | Russian 3.7% |
6 | Russian 4% | French 3.4% | Malay 3.4% | Arabic 3.7% |
7 | Portuguese 3.8% | Russian 2.8% | French 3.3% | French 3.4% |
8 | Italian 2.7% | Portuguese 2.7% | Japanese 3% | Portuguese 3.1% |
9 | Dutch 2.1% | Dutch 2.0% | Russian 2.8% | Japanese 2.2% |
10 | Polish 1.8% | Italian 1.9% | German 2.1% | German 2.2% |
11 | Turkish | Korean | Malay | |
12 | Persian | Turkish | Bengali | |
13 | Chinese | Italian | Turkish | |
14 | Vietnamese | Romanian | Italian | |
15 | Malay | Persian | Vietnamese |
QUE NOUS APPRENNENT CES COMPARAISONS ?
La prudence est de mise lorsqu’on lit les chiffres sur le pourcentage de langues sur le web, surtout lorsqu’il s’agit de l’anglais, car il n’y a pas de concordance entre les différents résultats.
Deux versions différentes du pourcentage d’anglais semblent émerger : l’une autour de 50 % et l’autre autour de 25 %. Serait-ce là le problème de la surestimation de 100 % due à la non prise en compte de la propriété multilingue de nombreux sites web et expliquée dans le lien ? Oui ! Le fait que DATAPROVIDER.COM ait exposé des chiffres en 2023 qui n’ont pas encore utilisé les données multilingues qu’ils ont collectées valide cette hypothèse.
Tous ces résultats convergent vers une forte probabilité que le pourcentage d’anglais dans l’ensemble du Web, en tenant compte du multilinguisme des sites Web, soit d’environ 25 %. Consultez https://www.obdilci.org/projects/main/englishweb/ si vous voulez comprendre pourquoi.
Pourquoi le chinois est-il si mal noté par W3Techs ? Les résultats revendiqués par W3Techs pour le chinois, moins de 2%, ne sont absolument pas crédibles, sachant qu’il s’agit de la première langue de l’Internet en termes d’utilisateurs, comme nous l’avons déjà fait savoir dans diverses publications. Où se situe la valeur réelle entre 10 et 20 % ? Comme le chinois est probablement utilisé dans de nombreux sites bilingues (chinois, anglais), la même règle peut s’appliquer et les chiffres de DATAPROVIDER.COM pourraient être multipliés par 2 et nous aurions un consensus sur 20%. Au cours des études préliminaires de MECILDI, nous avons découvert qu’une forte proportion de sites web chinois (50 % dans notre échantillon !) définissent le paramètre lang= en anglais plutôt qu’en chinois. Cela pourrait-il expliquer l’erreur de W3Techs ? L’utilisation de ce paramètre, lorsqu’il est spécifié, au lieu d’appliquer la détection de la langue, semble, à première vue, une décision juste pour économiser les ressources de l’unité centrale.
Jusqu’à présent, Netsweeper pourrait être considéré comme le résultat le plus fiable, car sa méthode ciblant les pages web au lieu des sites web empêche le biais du multilinguisme et il prétend couvrir 12 milliards de pages web, un chiffre qui pourrait représenter 30 % de l’univers des pages web, selon l’estimation de https://www.worldwidewebsize.com. Malheureusement, ils n’ont pas répondu à nos nombreuses demandes d’informations. L’hypothèse selon laquelle ils explorent une grande partie de l’univers des pages web est plausible et demanderait à être confirmée, de toute façon sans plus d’informations, la question du biais de sélection reste indécidable. Il est cependant remarquable de constater à quel point ces résultats sont proches de l’approximation d’OBDILCI. Les principales différences concernent les langues de l’Inde (hindi, bengali, urdu) dont la présence dans les contenus pourrait être surestimée par Obdilci ou sous-estimée par Netsweeper. Ce point mérite une attention particulière étant donné l’importance de l’Inde en termes démographiques. Sur la base d’une solide étude réalisée en 2017 par KPMG, https://assets.kpmg.com/content/dam/kpmg/in/pdf/2017/04/Indian-languages-Defining-Indias-Internet.pdf, dont la conclusion est que les internautes indiens ont tendance à utiliser de plus en plus leurs langues locales pour naviguer, nous maintenons nos chiffres mais devons chercher à savoir pourquoi alors le nombre de pages web en hindi est tellement sous-estimé par les autres approches.
Il est intéressant de comparer les prédictions d’OBDILCI avec les mesures de DATAPROVIDER.COM pour les langues à faible niveau de contenu. Nous avons remarqué quelques coïncidences extrêmes (galicien et basque) ainsi que des chiffres extrêmement éloignés (afrikaans, créole haïtien, irlandais et langues indiennes). Le biais de sélection des pays pourrait être une explication à étudier.
III INITIATIVES DE LA PREMIERE PERIODE (1996-2011)
Il pourrait être intéressant de se pencher sur les approches qui ont été développées au cours de la période précédente du Web, de 1998 à 2011. Pour plus de détails, lire l’article suivant qui couvre plus en détail cette période : « Douze ans de mesure de la diversité linguistique dans l’Internet : bilan et perspectives » ; D. Pimienta, D. Prado, A. Blanco, UNESCO CL/2009/WS1 – https://unesdoc.unesco.org/ark:/48223/pf0000187016
Nous nous contenterons de mentionner les points forts de chaque projet, par ordre chronologique.
Étude Xerox (1996-2000)
Méthode : Approche linguistique basée sur l’occurrence de mots fréquents dans le corpus.
Source: Grefenstette,G.; Noche, J. Estimation of English and non-English Language used on the WWW. Technical Report from Xerox Research Center Europe, 2000. https://arxiv.org/abs/cs/0006032
Couverture : Méthode unique non reproduite. C’était la première tentative historique.
Discussion : Offrir quelques pourcentages de langues par rapport à l’anglais.
OBDILCI/Funredes (1998-2007)
Méthode : Utiliser la capacité des moteurs de recherche, fiable à cette époque, à rapporter le nombre d’occurrences d’une chaîne de caractères dans l’ensemble des pages web indexées. Utiliser un vocabulaire comparatif sélectionné avec un soin extrême de la correspondance syntaxique et sémantique et de l’analyse des biais pour un ensemble de langues sélectionnées : anglais, français, espagnol, italien, portugais, catalan, roumain et allemand. L’utilisation de techniques statistiques permet d’obtenir des résultats en termes de pourcentage de chaque langue par rapport à l’anglais. Le pourcentage d’anglais est ensuite approximé par diverses techniques.
Source : Site historique de l’Observatoire https://funredes.org/lc/english/inicio/
Couverture : Plusieurs mesures ont été organisées au cours de la période 1998-2007, permettant de montrer un déclin de l’anglais de 80 % à 50 % et la croissance générale des langues européennes non anglaises. Il s’agit de la deuxième tentative historique et de la seule à avoir maintenu des observations sur une période longue, conjointement avec LOP.
Discussion : L’évolution des moteurs de recherche, faisant qu’à partir de 2007 ces chiffres ne sont plus du tout fiables, a signé la fin de cette méthode (et de beaucoup d’autres projets dans le monde utilisant cette capacité exceptionnelle de compter des mots ou des expressions dans le Web). OBDILCI/Funredes a poursuivi sa mission jusqu’en 2017, date à laquelle Funredes a cessé ses activités, avec des contributions sur le terrain principalement vers, le français et l’espagnol, et la recherche d’une nouvelle méthode. Une nouvelle approche a été esquissée en 2012, sur une idée de Daniel Prado de mesurer les langues à travers une grande collection d’indicateurs et de transformer les indicateurs de pays en indicateurs pour les langues en effectuant des opérations d croisement avec des données démolinguistiques. Cette nouvelle méthode a mûri en 2017 et aura ses biais sous contrôle en 2022.
ISOC Québec/Alis Technologies, suivi par OCLC (1997, 1999, 2002)
Méthode : Une série de sites web est obtenue par génération aléatoire de 8000 numéros IP. Un algorithme de détection des langues est appliqué à cette série et des pourcentages sont calculés. Cette méthode n’est pas statistiquement valide car l’exigence statistique pour obtenir des résultats fiables est d’éviter un coup unique et de faire plusieurs essais, disons 100 fois la même opération et d’appliquer des lois statistiques sur la distribution obtenue (moyenne, variance, intervalle de confiance). Cette méthode a été reproduite à l’identique deux fois en 1999 et 2002 avec le même défaut. Les trois mesures ont donné le même score de 80%, stable pendant 5 ans, ce qui, avec un bon marketing, a alimenté la désinformation pendant la période et jusqu’à ce que les publications de l’UNESCO fassent basculer les médias sur la valeur de 50%.
Couverture : Trois tirs uniques en 1997, 1999, 2002.
Sources: https://web.archive.org/web/20010810234537/http://alis.isoc.org/palmares.en.html https://www.researchgate.net/publication/271903988_How_World_Wide_Is_the_Web https://www.dlib.org/dlib/april03/lavoie/04lavoie.html
INKTOMI (2000)
Un moteur de recherche, INKTOMI, a annoncé à grand renfort de marketing, ses mesures des langues sur le Web en 2000. Il présentait les 10 premières langues avec l’anglais en tête à 86%. Un détail de taille que peu d’observateurs ont semblé remarquer : le total des pourcentages était de 100%, en dépit du fait que de nombreuses autres langues n’étaient pas prises en compte ! Cela manquait du sérieux mathématique le plus élémentaire…
Google : Méthode du complément d’un espace vide (1988-2008)
C’est ainsi que nous avions nommé une fonctionnalité découverte par hasard en mars 1998, avec AltaVista, et que Google a répliquée, et qui permettait de connaître la taille, par langue, de l’index du moteur de recherche. En faisant une requête au moteur de recherche du type « -ggfdgfdyugfgvdgdv » où le premier terme est vide et le second une chaîne de caractères qui n’apparait dans aucune page web, la valeur du nombre d’occurrences résultant était le nombre total de pages web. Si une langue est au préalable définie pour la recherche, la réponse était le nombre de pages dans cette langue. Les valeurs fournies par Google avec cette méthode était du même ordre que celle de notre méthode à l’époque, près de 51% en 2008 pour l’anglais, et le chinois était déjà autour de 9%, un chiffre que W3Techs fixe à moins de 2% aujourd’hui. Plusieurs publications ont été faites à l’époque en prétendant avoir calculé les pages web par langue et en copiant simplement les résultats de cette méthode simple sans en donner la source.
Language Observatory Project – LOP (2003-2011)
Méthode : Application de la détection de la langue sur une partie du Web, typiquement les ccTLD des pays où les langues locales étaient la cible. Ce projet, un consortium d’universités dirigé par l’université de Nagaoka, portait tous les espoirs de voir enfin ce sujet important se développer là où il le méritait, dans la communauté de la recherche, au sein d’un concept d’alliances. L’appartenance commune de Funredes/Obdilci et de LOP au réseau MAAYA (Réseau mondial de la diversité linguistique) était en outre une promesse de coopération fructueuse. Cette coopération s’est renforcée fin 2010 lorsque Funredes s’est vu remettre par LOP les données pour l’exploration des ccTLD d’Amérique latine et une interaction étroite pour évaluer le matériel a démarré, mais le tsunami catastrophique survenu en 2011 au Japon a provoqué, entre autres drames, la fin brutale de ce projet prometteur.
Sources: https://dl.acm.org/doi/10.1145/1062745.1062833 https://en.wikipedia.org/wiki/Language_observatory
UPC/IDESCAT (2003-2006)
L’Universitat Politecnica de Catalunya et l’Institut statistique de Catalogne ont organisé une base de données de 2 millions de sites web pour vérifier la présence du catalan avec la détection de la langue et ont présenté des résultats assez proches de ceux de Funredes/Odilci en 2005 et moins proches en 2006.
Source: https://raco.cat/index.php/LlenguaUs/article/view/128275/177480
IV Une courbe plausible de l’évolution des contenus anglais en ligne
En conclusion, nous présentons une courbe plausible de l'évolution de la proportion d'anglais en ligne.
Extraite de “Une histoire très brève de l’observation des langues dans l’Internet” dans Culture et Recherche, N° 143, AUTOMNE-HIVER 2022, La recherche culturelle à l’international, page 128-131.
Image Source : https://www.obdilci.org/wp-content/uploads/2024/04/EnglishWeb.jpg
Les projets d’OBDILCI
- Indicateurs de la présence des langues dans l’Internet
- Les langues de France dans l’Internet
- Le français dans l’Internet
- Le portugais dans l’Internet
- L’espagnol dans l’Internet
- IA et multilinguisme
- DILINET
- Projets pré-historiques
- Mort numérique des langues