En el contexto de la formidable inversión del estado español para los temas cruzados de inteligencia artificial y lengua [1] uno esperaba con sumo interés la salida anual del anuario del instituto Cervantes para conocer el primer impacto de esos planes en la dimensión digital de la lengua española.
[1] El PERTE “nueva economía de la lengua” anuncio presupuestos de más de 2 000 millones de euros para iniciativas y ha sido seguido por la estrategia para una inteligencia artificial con claro enfoque hacia la lengua.
Un aperitivo, a la vez digestivo y nutrido, había sido consumido anteriormente, con el excelente libro “Los futuros del español. Horizonte de una lengua internacional” de José Antonio Alonso, Juan Carlos Jiménez y José Luis García Delgado. Esa obra propuso aplicar la herramienta intelectual de la economía a la lengua española, llevando a la producción de datos originales, a partir de fuentes confiables y razonamientos claros con mira al futuro de esta lengua. Concluye con una serie de recomendaciones muy inspiradoras que bien podrían servir otras lenguas, además del español.
El anuncio de la edición 2024 de “El español en el mundo”, bajo los títulos de la fuerte presencia del español en la música mundial podía dejar sospechar una orientación cultural mas que digital, pero la decepción no podía ser mayor al consultarlo, al descubrir el vacío de la dimensión digital de la obra. Dentro de una obra de más de 600 páginas, el subcapítulo «Dimensión digital» tiene menos de 20 líneas, más de la mitad para explicar la fuente usada para los únicos datos mostrados: “Porcentajes de uso de idiomas en sitios web”.
La fuente que Cervantes persiste a usar, años tras años, W3Techs, es seriamente sesgada (ver la demostración) y la descripción que sigue de su metodo esa totalmente fantasiosa, cito : «Los datos se reúnen atendiendo a los sitios web que se consideran relevantes. Un sitio web es relevante si tiene contenidos o funcionalidades significativos«. ¡Tremenda tautología!
La realidad, muy fácil de comprobar aquí es que W3Techs produce sus datos a partir de la exploración del millón de sitios web los más visitados, usado esta fuente para ubicarlos. La relevancia a la cual se refiere W3Techs es un sencillo filtro de sitios vacíos y sitios duplicados.
W3Techs es una fuente comercial muy confiable para las 20 y picos tecnologías del Web que explora, pero no así para la lengua que es «una tecnología del web» que tiene la particularidad de no ser necesariamente única en un sitio web, a diferencia de las demás. El sesgo mayor de esos datos es que, al no tomar en cuanto el multilinguismo potencial de los sitios web, multiplica la proporción del inglés por un factor 2 (vea el enlace para mas detalles).
En cuanto la IA, la obra ofrece una excelente contribución pedagógica sobre IA y lenguas, ciertamente muy interesante e informativa sobre opciones para el español. Sin embargo, cuando España ha invertido sumas colosales en ese tema, uno esperaba recibir, en este anuario, datos de los avances de esos proyectos y no un curso sobre IA y lengua.
La comunicación extensa e intensa sobre esa obra está centrada en la predominancia de la música en español en el mundo, lo que ciertamente es relevante, pero el tema de las tecnologías de la lengua y de la IA podría ser, hoy en día, de un orden de magnitud más relevante y crucial.
Su ausencia interroga sobre la finalidad de ese anuario. El problema es claramente en las expectativas frustradas de obtener un compendio de datos estadísticos confiables sobre el español en todas las vertientes posibles, con un enfoque solido en el aspecto digital, el cual se ha vuelto el más estratégico mirando al futuro.
Es, sin duda, un notable trabajo acerca del tema cultural asociado a la lengua española pero no es la compilación de datos útiles para investigadores que uno esperaba. En ese sentido, no resiste la comparación con el esfuerzo que hace, cada 4 años la francofonía, bajo un título análogo “Le français dans le monde” , el cual reúne una suma impresionante de datos originales y útiles en todas la vertientes, con un esfuerzo particular en la dimensión digital.