La (quatrième) dimension numérique de l’annuaire 2024 de l’Institut Cervantes « L’espagnol dans le monde ».

Dans le contexte du formidable investissement de l’État espagnol dans les thèmes transversaux de l’intelligence artificielle et du langage [1] on attendait avec grand intérêt la sortie annuelle de l’annuaire de l’Instituto Cervantes pour connaître les premières retombées de ces plans sur la dimension numérique de la langue espagnole.


[1] La PERTE « nouvelle économie linguistique » a annoncé des budgets de plus de 2 milliards d’euros pour des initiatives et a été suivie par la stratégie pour l’intelligence artificielle qui met clairement l’accent sur la langue.

Un apéritif, à la fois digestif et nourrissant, avait été consommé auparavant, avec l’excellent livre « Los futuros del español. Horizonte de una lengua internacional«  de José Antonio Alonso, Juan Carlos Jiménez et José Luis García Delgado. Cet ouvrage propose d’appliquer l’outil intellectuel de l’économie à la langue espagnole, ce qui permet de produire des données originales, basées sur des sources fiables et un raisonnement clair en vue de l’avenir de cette langue. Il se termine par une série de recommandations très inspirantes qui pourraient également servir d’autres langues, en plus de l’espagnol.

L’annonce de l’édition 2024 de « El español en el mundo« , sous les titres de la forte présence de l’espagnol dans les musiques du monde, aurait pu laisser soupçonner une orientation plus culturelle que numérique, mais la déception n’aurait pu être plus grande en la consultant, en découvrant le vide de la dimension numérique de l’ouvrage. Dans un ouvrage de plus de 600 pages, le sous-chapitre « Dimension numérique » compte moins de 20 lignes, dont plus de la moitié expliquent la source utilisée pour la seule donnée présentée : « Pourcentages d’utilisation des langues sur les sites web« .

La source que Cervantes persiste à utiliser, années après années, W3Techs, est sérieusement biaisée (voir la démo) et la description qui suit de leur méthode est totalement fantaisiste, je cite : « Les données sont collectées sur la base des sites web qui sont considérés comme pertinents. Un site web est pertinent s’il a un contenu ou une fonctionnalité significative« . Quelle tautologie !

La réalité, très facile à vérifier ici, est que W3Techs produit ses données en analysant le million de sites web les plus visités, en utilisant cette source pour les localiser. La pertinence à laquelle W3Techs fait référence est un simple filtre pour les sites vides et dupliqués.

W3Techs est une source commerciale très fiable pour la vingtaine de technologies web qu’elle explore, mais pas pour la langue qui est « une technologie web » qui a la particularité de ne pas être nécessairement unique dans un site web, contrairement aux autres technologies. Le biais majeur de ces données est qu’en ne prenant pas en compte le multilinguisme potentiel des sites web, elles multiplient par 2 la proportion d’anglais (voir le lien pour plus de détails).

En ce qui concerne l’IA, le livre offre une excellente contribution pédagogique sur l’IA et les langues, certainement très intéressante et informative sur les options pour l’espagnol. Cependant, alors que l’Espagne a investi des sommes colossales dans ce domaine, on s’attendrait à recevoir, dans cet annuaire, des données sur l’avancement de ces projets et non un cours sur l’IA et les langues.

La communication abondante et intense sur ce travail se concentre sur la prédominance de la musique en langue espagnole dans le monde, ce qui est certainement pertinent, mais la question du langage et des technologies de l’IA pourrait être, aujourd’hui, d’un ordre de grandeur plus pertinente et plus cruciale.

Son absence soulève des questions quant à l’objectif de cet annuaire. Le problème réside clairement dans les attentes déçues d’obtenir un recueil de données statistiques fiables sur l’espagnol sous tous ses aspects, avec un accent particulier sur l’aspect numérique, qui est devenu le plus stratégique pour l’avenir.

Il s’agit sans aucun doute d’un travail remarquable sur le thème culturel associé à la langue espagnole, mais il ne s’agit pas de la compilation de données utiles pour les chercheurs que l’on pourrait attendre. En ce sens, il ne soutient pas la comparaison avec l’effort réalisé tous les quatre ans par la Francophonie, sous un titre similaire « Le français dans le monde » , qui rassemble une quantité impressionnante de données originales et utiles sur tous les aspects, avec un effort particulier sur la dimension numérique.

Laisser un commentaire