Una publicación de revisión por pares dice que el dominio del inglés en la Web es una verdad a medias

Un hito importante para OBDILCI: nuestro artículo  “Is it True that More Than Half of Web Contents are in English? Not If Multilingualism is Paid Due Attention!”  ha sido finalmente publicado en la revista revisada por pares Forum for Linguistic Studies.

Deseamos que la importancia del tema sea percibida por más gente. Hay interesantes lecciones aprendidas del largo y engorroso proceso para llegar a esa publicación que nos gustaría compartir al respecto. ¿Por qué? Porque «El inglés representa ininterrumpidamente más del 50% de los contenidos web desde 2011» es una mentira, o dicho más diplomáticamente, una verdad a medias, que oculta la formidable realidad multilingüe de Internet.

¿Una verdad a medias? Sí, el inglés es y seguirá siendo durante un tiempo, junto con el chino, la primera lengua en cuanto a contenidos web. Sin embargo, el porcentaje hoy real es la mitad de lo que repiten los medios, apoyados en fuente sesgada. Y la mitad significa más del 25% de una gran variedad de contenidos en otros idiomas. Internet es el reino más multilingüe jamás construido sobre la tierra, una nueva Torre de Babel, pero con entendimiento mutuo, gracias a la traducción asistida por aplicaciones.

Hoy existen digitalmente unas 750 lenguas, es sólo menos del 10% de la riqueza lingüística existente, pero es mucho más que las menos de 100 localizadas en el año 2000, y aún más que las muy pocas dozenas de los primeros años de la Web. Aún queda un largo camino para alcanzar el pleno multilingüismo, pero hoy en día más del 90% de los hablantes de lenguas del mundo pueden utilizar su primera o segunda lengua en la Red, ya que el reto afecta ahora sobre todo a las lenguas minoritarias y en peligro de extinción.

Esta publicación se escribió por primera vez hace un año y medio y se puso en acceso abierto como preprint. Sin embargo, conseguir su publicación en una revista seria revisada por pares ha sido un camino largo y difícil. El análisis de la hoja de ruta puede decir algo más que nuestras reconocidas dificultades para transmitir con claridad un mensaje científico.

La publicación ha sido rechazada por el editor, con el argumento de que el tema no encaja, en el Journal of Computational Linguistics y PLOS-One. Ha sido presentada y rechazada, tras revisión por pares, por Languages@Internet, la 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation, y la 3ª Reunión Anual del Special Interest Group on Under-resourced Languages (SIGUL). Finalmente fue aceptado tras una revisión completa exigida por el Forum of Linguistic Studies.

No se trata en absoluto de discutir las decisiones tomadas por esas revistas, que fueron todas documentadas, justas y válidas (en el caso de SIGUL la revisión fue más bien positiva, pero el número de plazas era limitado y se aplicó un umbral). De lo que se trata es de analizar y sacar algunas lecciones de ese proceso.

Primera lección: la revisión por pares es, como la democracia, engorrosa (necesidad de adaptar el texto a varios formatos y reglas diferentes), a veces frustrante (algunos revisores no saben lo suficiente sobre el tema) pero es el método menos malo para hacer ciencia o sociedad. En ese sentido, ¡ambos son inventos clave de la humanidad! Ambos necesitan ser apreciados y protegidos de las amenazas existentes.

Precisamente en ese caso, las 3 x 4 revisiones, aunque no afectaron al núcleo de la demostración, obligaron a una serie de 4 revisiones sobre claridad, legibilidad y argumentación sólida sobre lo que está en juego y sus repercusiones. Este proceso mejoró progresiva y drásticamente el producto (lo que no significa que no pueda recibir aún más críticas y mejoras). Los revisores no sólo validan o no la producción científica, sino que participan activa y solidariamente en su mejora. Actuar como revisor es ofrecer un valioso tiempo profesional en aras de la buena ciencia.

Segunda lección: el tema del espacio de las lenguas en Internet ha sido tratado hasta ahora por un número muy limitado de investigadores y está muy infravalorado por la comunidad de la tecnología lingüística y fuera de ella, y a menudo malinterpretado. Eso, a pesar de que tiene implicaciones en muchos aspectos societales: políticas públicas para las lenguas, negocios/comercio electrónico, industrias culturales, geopolítica, cibergeografía… Años de desinformación (sobreestimación) sobre la realidad del inglés en la Red han conformado profundos conceptos erróneos, incluso en la cabeza de científicos serios acostumbrados al razonamiento basado en pruebas.

La tercera lección proviene del fascinante hecho de que las 4 revisiones, cada una hecha por 3 revisores, compartían exactamente el mismo patrón: uno de los 3 revisores afirmó básicamente que «esto no es un tema y de todos modos el texto es confuso y carece de claridad; no parece una contribución científica«. La parte de la afirmación sobre la claridad era obviamente correcta y a menudo sostenida por ejemplos y ayudó mucho. La primera parte sólo reflejaba la limitación de conocimientos de esos revisores, pero también confirmaba la segunda lección en el sentido de que algunos conceptos erróneos impiden totalmente a ciertos revisores captar el fundamento del artículo y, en consecuencia, la atención requerida para la propia demostración. He aquí algunas frases sintomáticas extraídas de esas reseñas:

No veo la relación con los recursos lingüísticos.

La presentación no ofrece ninguna novedad real sobre el multilingüismo en línea.

¿Por qué es importante que el inglés no sea la lengua mayoritaria de las páginas web?

Para mí el problema no es que el inglés sea mayoritario, sino que falte material de texto de las lenguas con menos recursos.

En opinión del revisor, no debería importar qué proporción de lenguas existen en Internet

Esto no aporta implicaciones para el campo.

Rechazado.

Un segundo grupo de revisores, a pesar de no estar familiarizados con el tema, con una mentalidad abierta, analizaron los conceptos e intentaron salir adelante con algunas dificultades. Algunos de esos revisores a veces no entendieron el punto, pero dieron recomendaciones concretas para que el documento fuera más claro y transmitiera mejor lo que estaba en juego.

Petición de revisión en profundidad de la forma.

Un tercer grupo de revisores, probablemente más conocedores de lo que está en juego, elogiaron el tema y recorrieron la demostración sin especial dificultad, al tiempo que ofrecían consejos para una mejor discusión, más referencias a otros trabajos sobre el tema (lo cual es bastante imposible en este caso) y ofrecían valiosos consejos para una mejor exposición de las ideas y el desarrollo de la demostración.

Aceptado. Solicitud de revisión del la forma.

Después de 12 consejos sumados y tomados en serio sobre legibilidad, claridad, fluidez en la demostración y mejor exposición de lo que está en juego e impactos, este artículo, también actualizado con nueva información a lo largo del proceso duradero, ¡sólo podía mejorar! Nadie puede esperar la perfección por estos motivos, pero definitivamente cada versión es mejor que la anterior, en una serie de 4 versiones, y todo el proceso genera mejoras sólidas.

Queda que el tema de qué proporción de lenguas existen en Internet, para retomar la expresión de un revisor, es bastante incomprendido y subestimado. Más allá del hecho de que muy pocos investigadores han tratado ese tema, esto es en parte consecuencia del hecho de que la mesinformación es realmente dañina cuando se repite año tras año porque moldea y cierra las mentes. La mesinformación tomada como evidencia, impide a algunos científicos genuinos enfrentarse a ese tema sin sesgos emocionales o inconscientes, debido a evidencias preconcebidas y erróneas. ,

La lingua franca de la Internet actual es la traducción asistida por la inteligencia artificial. El multilingüismo es a la vez una realidad extraordinaria y única de la Internet actual y todavía un objetivo apremiante que se extenderá a más y más lenguas en los próximos años.

Si no tiene tiempo de leer el artículo pero sigue interesado en el tema y necesita una vía rápida para ir al grano, consulte:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *