Une étape importante pour OBDILCI : notre article “Is it True that More Than Half of Web Contents are in English? Not If Multilingualism is Paid Due Attention!” a finalement été publié dans la revue ouverte à comité de lecture Forum for Linguistic Studies. (version française).
Nous souhaitons que l’importance du sujet soit perçue par un plus grand nombre de personnes. Nous aimerions partager avec vous les enseignements intéressants tirés du processus long et fastidieux qui a conduit à cette publication. Pourquoi ? Parce que « L’anglais représente de manière stable plus de 50% des contenus Web depuis 2011 » est un mensonge, ou plus diplomatiquement dit, une demi-vérité, cachant la formidable réalité du multilinguisme de l’Internet.
Une demi-vérité ? Oui, l’anglais est et restera encore longtemps, avec le chinois, la première langue en termes de contenus web. Cependant, le pourcentage réel de l’anglais dans la Toile est la moitié de ce qui est répété dans les médias, source biaisée à l’appui. Et la moitié représente plus de 25 % d’une grande variété de contenus dans d’autres langues.
L’internet est l’envirionnement le plus multilingue jamais construit sur terre; une nouvelle tour de Babel, mais avec une compréhension mutuelle, grâce à la traduction assistée par des applications. Aujourd’hui, quelque 750 langues ont une existence numérique, ce qui ne représente que moins de 10 % de la richesse linguistique existante, mais c’est beaucoup plus que les moins de 100 langues localisées en 2000, et encore plus que les quelques dizaines des premières années de la Toile. Il reste encore un long chemin à parcourir pour parvenir à un multilinguisme complet, mais aujourd’hui plus de 90 % des locuteurs de langues du monde peuvent utiliser leur première ou leur deuxième langue sur le Net, car le défi concerne aujourd’hui principalement les langues minoritaires et menacées.
Cette publication a été rédigée pour la première fois il y a un an et demi et mise en libre accès en tant que preprint. Cependant, la publication dans une revue sérieuse à comité de lecture a été un chemin long et difficile. L’analyse de cette itinéraire peut en dire plus que nos difficultés, reconnues, à transmettre clairement un message scientifique.
La publication a été rejetée par l’éditeur, avec l’argument que le sujet ne correspondait pas aux thèmes prévus, par le Journal of Computational Linguistics et PLOS-One. Elle a été rejetée après révision par Languages@Internet, la 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation, et le 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages (SIGUL). Elle a finalement été acceptée, après une révision complète, par le Forum of Linguistic Studies.
Il ne s’agit absolument pas de discuter les décisions prises par ces revues, qui étaient toutes documentées, justes et valables (dans le cas de SIGUL, l’évaluation était plutôt positive, mais le nombre de places était limité et un seuil a été appliqué). Il s’agit d’analyser et de tirer des leçons de ce processus.
Première leçon : l’évaluation par les pairs est, comme la démocratie, lourde (nécessité d’adapter le texte à différents formats et règles), parfois frustrante (certains évaluateurs n’en savent pas assez sur le sujet), mais c’est la moins mauvaise méthode pour faire de la science ou faire société. En ce sens, les deux sont des inventions clés de l’humanité ! Elles doivent être appréciées et protégées des menaces existantes.
Dans ce cas précis, les 3 x 4 critiques, même si elles n’ont pas affecté le cœur de la démonstration, ont forcé une série de 4 révisions sur la clarté, la lisibilité et la solidité de l’argumentation sur les enjeux et les impacts. Ce processus a progressivement et radicalement amélioré le produit (ce qui ne veut pas dire qu’il ne pourrait pas recevoir encore plus de critiques et d’améliorations). Les évaluateurs ne se contentent pas de valider ou non la production scientifique, ils participent aussi activement et solidairement à son amélioration. Être évaluateur pour des revues scientifiques, c’est offrir solidairement un temps professionnel précieux au service de la science.
Deuxième leçon : le sujet de la proportion des langues dans l’Internet a été traité jusqu’à présent par un nombre très limité de chercheurs; il est largement sous-estimé par la communauté des technologies linguistiques et, au-delà, souvent mal compris. Et ce, en dépit du fait qu’il a des implications dans de nombreux aspects sociétaux : politiques publiques pour les langues, affaires/commerce électronique, industries culturelles, géopolitique, cyber-géographie… Des années de désinformation (surestimation) sur la réalité de l’anglais dans la Toile ont cultivé, en profondeur, des idées fausses, même dans la tête de scientifiques sérieux habitués à un raisonnement basé sur des preuves.
La troisième leçon vient du fait fascinant que les 4 évaluations, chacune faite par 3 évaluateurs, partageaient exactement le même schéma : l’un des trois évaluateurs a déclaré en substance que « il s’agit d’un non-sujet et, de toute façon, le texte est confus et manque de clarté ; il ne ressemble pas à une contribution scientifique« . La partie de la déclaration relative à la clarté était manifestement correcte et souvent étayée par des exemples, ce qui a beaucoup aidé. La première partie, par contre, ne faisait que refléter les limites des connaissances de ces évaluateurs, mais elle confirmait également la deuxième leçon, à savoir que certaines idées fausses empêchent totalement certains évaluateurs de saisir la logique de l’article et, par conséquent, l’attention requise pour la démonstration elle-même.
Voici quelques phrases symptomatiques extraites de ces évaluations:
– Je ne vois pas le rapport avec les ressources linguistiques.
– Le document ne propose pas de nouvelles idées sur le multilinguisme en ligne.
– Pourquoi est-il important que l’anglais ne soit pas la langue majoritaire des pages web ?
– L’anglais pourrait être considéré comme une lingua franca, que beaucoup de gens dans le monde comprennent (au moins en tant que deuxième langue).
– Pour moi, le problème n’est pas la majorité de l’anglais, mais le manque de matériel textuel dans les langues sous-représentées..
– De l’avis de l’évaluateur, la proportion de langues existant sur Internet ne devrait pas avoir d’importance, et cela n’a pas d’implications pour le domaine de recherche.
Rejeté.
Un deuxième groupe d’évaluateurs, bien que n’étant pas familier avec le sujet, a examiné les concepts avec un esprit ouvert et a essayé de les comprendre, souvent avec quelques difficultés. Certains de ces évaluateurs sont parfois passés à côté de l’essentiel, mais ils ont fourni des recommandations concrètes pour rendre le document plus clair et mieux faire passer les enjeux.
Demande de révision en profondeur de la forme.
Un troisième groupe de relecteurs, probablement plus au fait des enjeux, a fait l’éloge du sujet et a passé la démonstration sans difficulté particulière, tout en offrant des conseils pour une meilleure discussion, plus de références à d’autres ouvrages sur le sujet (ce qui est d’ailleurs impossible) et en offrant des conseils précieux pour une meilleure exposition des idées et le développement de la démonstration.
Accepté mais demande de révision sur la forme.
Après la prise en compte de la somme de 12 séries de conseils sur la lisibilité, la clarté, la fluidité de la démonstration et une meilleure exposition des enjeux et des impacts, cet article, également mis à jour avec de nouvelles informations, tout au long du processus, ne pouvait que s’améliorer ! Personne ne peut s’attendre à la perfection sur ces bases, mais définitivement chaque version est meilleure que la précédente, dans une série de 4 versions, et l’ensemble du processus génère de solides améliorations.
Il reste que le sujet de quel est a la proportion des langues dans l’Internet, pour reprendre une expression d’un réviseur, est très mal compris et sous-estimé. Au-delà du fait qu’extrêmement peu de chercheurs ont traité ce sujet, c’est en partie la conséquence du fait que la mésinformation est vraiment néfaste lorsqu’elle est répétée d’année en année parce qu’elle façonne et ferme les esprits. La mésinformation, prise à tort comme une preuve, empêche certains scientifiques authentiques d’aborder ce sujet sans préjugés émotionnels ou inconscients, en raison d’évidences préconçues et erronées.
La lingua franca de l’internet d’aujourd’hui est la traduction assistée par l’intelligence artificielle. Le multilinguisme est à la fois une réalité extraordinaire et unique de l’internet d’aujourd’hui et un objectif pressant à étendre à de plus en plus de langues dans les années à venir.
Si vous n’avez pas le temps de lire l’article mais que le sujet vous intéresse et que vous avez besoin d’un moyen plus rapide de comprendre, consultez :