PROYECTO PRINCIPAL – MÉTODOS
Recopilación /evaluación de todos los métodos identificados
COMPARACIÓN ENTRE DISTINTOS ENFOQUES PARA MEDIR LA PROPORCIÓN DE LENGUAS EN LÍNEA Y EL FLASHBACK HISTÓRICO
Si prefiere leerlo sin conexión, puede descargar el informe en inglés: Inventario y comparaciones de todos los métodos para la medición de las lenguas en línea.
Hasta el momento, se han identificado cinco enfoques diferentes de empresas, universidades u organizaciones de la sociedad civil que ofrecen, a día de hoy, cifras sobre la proporción de lenguas en línea. Este documento los expone e intenta sacar conclusiones de sus similitudes y diferencias y de sus posibles sesgos.
Los métodos y cifras del periodo inicial, de 1997 a 2007, se presentan superficialmente al final de este documento. Los detalles han sido expuestos y analizados en Doce años de medición de la diversidad lingüística en Internet: balance y perspectivas, D. Pimienta, D. Prado, A. Blanco- 2009 – (en inglés) .
Al final del primer periodo, en 2007, existían pruebas de que la proporción de inglés en la Web ya rondaba el 50%. Hoy en día, todas las evidencias convergen hacia una cifra comprendida entre el 20% y el 30%, a pesar de las cifras populares pero sesgadas que hablan de «más del 50%»…
I – ENFOQUES ACTUALES PARA MEDIR LAS LENGUAS EN LÍNEA
ENFOQUE 1: W3TECHS
Fuente: https://w3techs.com/technologies/overview/content_language
Método: Aplicación diaria de un algoritmo de detección lingüística sobre el millón de páginas web más visitadas, según el listado de TRANCO.
Tipo: Empresa de servicios de Internet especializada en encuestas sobre tecnología web.
Span: Daily since 2011
Metodología expuesta: parcial (https://w3techs.com/technologies)
Metodología de revisión por pares: no
Debate sobre los sesgos: no
Intervalo de confianza de la cifra: No disponible.
Número de lenguas cubiertas: 40
Nuestro diagnóstico: Sospechamos que asignan un único idioma por sitio web, por defecto el inglés, si se trata de un sitio multilingüe que incluye el inglés como opción. Esto provoca un fuerte sesgo a favor del inglés. Hay otros sesgos a entender (como extrapolar el millón más visitado a toda la web favorece al inglés y a las lenguas europeas) pero el sesgo principal de no tener en cuenta el multilingüismo de los sitios web puede conducir a una sobre-valoración del inglés del orden del 100% (ver demostración en https://obdilci.org/proyectos/principal/englishweb/ ).
Conclusión: El dato que elabora diariamente W3Techs es el porcentaje de inglés, como una de las opciones lingüísticas de un sitio web, y el porcentaje de otros 40 idiomas, cuando el inglés no es una de sus opciones lingüísticas, en la serie de sitios web pertenecientes al millón de más visitados. Debido a su larga historia, al hecho de que la empresa es considerada bastante fiable por sus encuestas sobre tecnologías web, se ha convertido, a pesar de su enorme sesgo, en la principal referencia sobre el tema de las lenguas en línea, durante mucho tiempo, por muchos, incluidos responsables políticos e investigadores, lo que constituye un verdadero problema de desinformación.
ENFOQUE 2: DATAPROVIDER.COM
Fuente: https://www.dataprovider.com/blog/domains/what-languages-does-the-web-speak/
Método: Aplicación de un algoritmo de detección de lenguaje sobre supuestamente cerca de todos los sitios web existentes (99M sobre 136M de sitios web válidos de los que se almacenan datos en su base de datos).
Tipo: Empresa de servicios de Internet especializada en análisis de datos
Span: Una vez en enero de 2023
Metodología expuesta: No. Sin embargo, respondieron amablemente a todas nuestras preguntas lo que permite compartir la siguiente descripción. Exploran, utilizando https://github.com/jmhodges/gocld3 para la detección (un modelo que identifica un poco más de 100 idiomas), todo el universo de sitios web (en 2023, 710 millones de sitios web, de los cuales 136 millones son válidos). Obsérvese que sus cifras son extremadamente coherentes con las estadísticas de Netcraft (https://www.netcraft.com/blog/october-2024-web-server-survey/). En 2023, aplicaron la detección de idiomas a un subconjunto de 99M, es decir, el 73% del total, filtrado por país (en ese momento sólo se incluían 62 países, es decir, menos del 30%). Sí conservan la información de las distintas versiones lingüísticas, cuando se especificañ en la instrucción HTML hreflang=, sin embargo aún no se puso en uso en las estadísticas publicadas en 2023, que entonces solo contabilizan una, la lengua principal de los sitios web.
Metodología revisada por pares: no
Discusión de sesgos: Además del mismo sesgo de multilingüismo que se aplica a W3Techs, existe un sesgo derivado de los países excluidos de la selección.
Intervalo de confianza de la cifra: No disponible
Número de idiomas cubiertos: 107
Nuestro diagnóstico: Se trata de un enfoque muy interesante y prometedor, ya que esta empresa posee una base de datos con todo el universo de sitios web (actualmente, 163 M válidos de 856 M totales) y el potencial de aplicar, parcialmente, la medición que permite tener en cuenta el multilingüismo de los sitios web (parcialmente, porque según nuestros estudios, el parámetro hreflang= sólo es utilizado por el 40% de los sitios web multilingües). En esta fase, los resultados de la medición deben tomarse con la misma precaución que los de W3Techs. Si no se tiene en cuenta el sesgo de selección de países, los datos podrían confirmar que el porcentaje global de sitios web que tienen el inglés como una de las versiones es comparable, aunque ligeramente inferior, al de la muestra Tranco analizada por W3Techs, lo cual tiene sentido. De hecho, es probable que muchos idiomas europeos, entre ellos el inglés, tengan más probabilidades de estar entre los sitios web más visitados. Hay que seguir con interés este enfoque ya que tiene potencial de mejora hacia resultados con sesgos controlados, gracias a la transparencia de la empresa que alabamos y agradecemos.
Conclusión: En la hipótesis de que la empresa invierta en una nueva campaña, esta vez incluyendo la información de una parte de los sitios multilingües, es posible mitigar los 2 sesgos restantes.
1) el sesgo de selección: dada la lista de países que se excluyen, la extrapolación de los datos que faltan es posible a partir de la combinación de la tasa de conexión a Internet por país y de los hablantes por idioma en cada país dando como resultado el porcentaje de hablantes conectados, para cada idioma, excluidos de los datos. OBDILCI puede proporcionar, a partir de esos porcentajes, una corrección multiplicativa que se aplicará al contador de cada lengua y, por tanto, mitigará el sesgo. Obviamente, esto no eliminará totalmente el sesgo para todos los idiomas, pero los resultados habrán reducido el sesgo en gran proporción (tenga en cuenta que este método se utiliza en gran medida en el modelo OBDILCI para completar estadísticas parciales).
2) El sesgo residual multilingüe: a partir de nuestras estadísticas aproximadas, sólo el 40% de los sitios web multilingües utilizan la instrucción hreflang= para especificar la lista de opciones lingüísticas. No tener en cuenta el 60% de los casos es un gran sesgo. Sin embargo, puede reducirse drásticamente multiplicando simplemente todos los contadores de idiomas por 100/60 = 5/3, suponiendo que el patrón obtenido con el 40% se reproducirá aproximadamente para el resto. Obviamente, la suposición puede ser errónea, pero el resultado será mucho menos sesgado con esa corrección. Haciendo eso, DATAPROVIDER.COM podría producir la mejor aproximación de la historia a la medición de la proporción de idiomas en los contenidos web y, con la misma lógica, podría producir la primera aproximación seria de la historia a un dato clave, la tasa de multilingüismo de la Web, para ser comparada con el mismo valor para los Humanos (la definición de este indicador es: el total de versiones lingüísticas identificadas dividido por el total de sitios web analizados). OBDILCI y DATAPROVIDER.COM han planificado discusiones a principios de 2025 para examinar las posibilidades de cooperación hacia cifras sin sesgos.
ENFOQUE 3: NETSWEEPER
Fuente: https://www.netsweeper.com/government/top-languages-commonly-used-internet
Método: Afirman aplicar algoritmo de detección de lenguaje en 12.000 millones de páginas web.
Tipo: Empresa de servicios de Internet especializada en filtrado web con fines de seguridad
Span: Una vez en junio de 2023
Metodología expuesta: No. Sin respuesta varios intentos de comunicación.
Metodología revisada por pares: no.
Discusión de sesgos: No aportada. De confirmarse la afirmación de que trabajan sobre páginas web en lugar de sitios web, se superaría el sesgo multilingüe. Quedaría por analizar un único sesgo en el método NETSWEEPER, el sesgo de selección. Doce mil millones de páginas web podrían representar el 30% de todo el universo de páginas web, lo cual es una cifra elevada; sin embargo, dependiendo de la forma en que se realice la selección, el sesgo resultante podría variar desde casi nulo a grande. Si las páginas se seleccionan al azar, el sesgo es casi nulo. Si la selección se hace en todos los sitios web, pero restringiendo la selección a un subconjunto de las páginas de cada sitio web, de nuevo el sesgo podría variar entre nulo o el mismo sesgo multilingüe, si la selección favorece a las páginas pertenecientes a la versión inglesa. El hecho de que computen el inglés en torno al 25% es posiblemente una señal de que este sesgo está controlado. Sin embargo, a falta de información sobre el proceso, esto sigue siendo indecidible por el momento.
Número de idiomas cubiertos: 47
Nuestro diagnóstico: Si lo que se afirma es la realidad, se trata de un método libre del sesgo multilingüe y aplicado a una parte sustancial de la Web (nadie sabe realmente el número de páginas web, las cifras de alrededor de 40.000 millones son dadas por https://www.worldwidewebsize.com). Esto representaría el 30% del universo. Si el sesgo de selección es casi nulo o se atenúa mediante alguna técnica, éste podría convertirse en el resultado más prometedor sobre el tema. La coincidencia con muchas cifras de OBDILCI es sorprendente y argumenta a favor de un sesgo de selección controlada; sin embargo, sin más información sobre el método, esta estancia sigue siendo una hipótesis.
Conclusión: Es una pena que nunca respondieron a nuestras varias solicitudes de información metodológica a lo que sigue siendo un serio candidato para el mejor método para la proporción de lenguaje en los contenidos web. Hemos utilizado dos veces el formulario de contacto de su web y enviado directamente un correo al CTIO en marzo de 2024 y no hemos obtenido respuesta. Esperemos que en el futuro obtengamos esa información y estemos en capacidad de concluir el diagnóstico.
Empleados de Netsweeper, si por casualidad leen esta página web por favor pónganse en contacto con nosotros.
ENFOQUE 4: UNIVERSIDAD IONAN DE GRECIA
Fuente: https://doi.org/10.3390/fi12040076
Método: Se centran en los ccTLD de la Unión Europea y en los contenidos en inglés. Utilizan un algoritmo de detección de idiomas en 100 000 sitios web. Evitan el sesgo multilingüe rastreando todos los enlaces internos.
Tipo: Artes visuales Departamento académico
Span: Una vez en junio de 2019
Metodología expuesta: Sí totalmente transparente
Discusión de sesgos: No
Intervalo de confianza de la cifra: No disponible
Número de idiomas cubiertos: uno, el inglés
Nuestro diagnóstico: Se trata de un experimento totalmente fiable pero restringido a los ccTLD europeos. Puede servir de todas formas como un posible indicador del alcance de la proporción del inglés a nivel global.
Conclusión: Esta la primera incursión desde hace tiempo del mundo académico en esa materia. El estudio tiene todos los atributos de solidez de los trabajos académicos revisados por pares. Sin embargo, se dirige a un subconjunto de la Web y los resultados no pueden generalizarse para toda la Web. De todos modos, este traajo aporta otro argumento para afirmar que la posición estable de W3Techs de inglés por encima del 50%, desde 2011 es simplemente absurda. ¿Hay alguna razón para que el porcentaje medio de inglés en los sitios web de ccTLD de la Unión Europea antes del Brexit (incluidos los países de habla inglesa: Reino Unido, Irlanda y Malta) sea tan inferior al de todo el universo web? No vemos ninguna razón, al contrario.
ENFOQUE 5: MÉTODO PRINCIPAL OBDILCI
Fuente: https://www.obdilci.org/projects/main/
Método: Se trata de un método indirecto basado en la recopilación y organización de múltiples indicadores. No puede considerarse realmente una medición, sino más bien una aproximación realista basada en algunos supuestos y fuentes sólidas, un subconjunto de las cuales implica sesgos que se discuten a fondo.
Tipo: Organización de la Sociedad Civil, trabajando en ese tema desde 1998
Span: Desde 2017, una o dos veces al año
Metodología expuesta: Sí. Totalmente transparente en el artículo revisado por pares https://doi.org/10.3389/frma.2023.1149347
Metodología revisada por pares: Sí, véase la URL anterior
Discusión de sesgos: Sí, muy detallada y exhaustiva, véase la URL anterior.
Intervalo de confianza de la cifra: grande, +-20% (estimado, no calculado)
Número de lenguas cubiertas: 361
Nuestro diagnóstico: Este enfoque indirecto se apoya en datos sólidos sobre el número de hablantes de L1 y L2 de cada lengua por país (Ethnologue), el porcentaje de personas conectadas por país (ITU), la suposición de que existe una ley económica natural que vincula demanda (hablantes de una lengua conectados) y oferta (contenidos para esa lengua), cuya modularidad depende de un amplio conjunto de factores que han sido representados por el mayor conjunto posible de indicadores fiables (tráfico, suscripciones, presencia de lenguas en interfaces y herramientas, preparación para la sociedad de la información…). Existe un supuesto de simplificación (todos los hablantes de lenguas conectadas de un mismo país comparten el mismo porcentaje de conectividad) que es el principal sesgo y la razón por la que el modelo se limita a grandes poblaciones de hablantes (L1 > 1M). No es una medida, pero es una plausibilidad sólida para las cifras dentro de un amplio intervalo de confianza y hasta que otro método sea validado como sesgo controlado, sigue siendo una aproximación seria, que cubre muchas más lenguas que los otros métodos.
Conclusión: Las mentes interesadas y críticas podrían preguntarse genuinamente: ¿cómo es que tal método se aproxima a la realidad simplemente promediando muchos indicadores? Sabiendo que se basa en una hipótesis muy teórica (la existencia de una ley desconocida que relaciona internautas por idiomas y contenidos web por idiomas), ¿podría describirse indirectamente esta ley desconocida para permitir cifras aproximadas, pero fiables, recogiendo múltiples indicadores y procesándolos estadísticamente utilizando principalmente operaciones de ponderación?
Nos gustaría dar alguna respuesta intuitiva a ese razonable cuestionamiento. Una de las clases de matemáticas más impresionantes que recibí en pre-PhD invitaba a los estudiantes a crear la ecuación de una ola llegando a la orilla en una playa. La física es muy compleja, ¡pero el profesor afirmaba que los estudiantes no necesitaban saber nada de física para tener una ecuación aproximada pero relevante! ¿Por qué? El tamaño de la altura de la ola que llega a la orilla es el resultado del oleaje que alcanza una profundidad progresivamente reducida, basta con enumerar todos los parámetros que intervienen: periodo del oleaje, altura del oleaje, curva de la profundidad de la orilla… y combinarlos para que sean coherentes con su dimensión (distancia en metros, altura en metros, velocidad en metros por segundo, periodo en segundos, etc.). Crea la ecuación más sencilla donde la dimensión resultante sea compatible con el resultado, la altura de la ola es un dato en metro por lo que tiene que ser la combinación matemática de los factores. La ecuación que obtengas tiene toda la probabilidad de ser una primera representación de la realidad. ¡Y funciona! Más información sobre esa técnica en https://en.wikipedia.org/wiki/Dimensional_analysis.
Aquí estamos en un contexto diferente, no es física compleja sino big data y estadística. En un mundo ideal, todas las lenguas son iguales y la ley es lineal: en términos de porcentajes mundiales, hay tantos contenidos como hablantes en cada lengua. El cociente que llamamos productividad de contenidos (porcentaje de contenidos dividido por porcentaje de hablantes conectados) es igual a uno para cada lengua, es una ecuación lineal. Ese dato lineal lo obtenemos ponderando la matriz de hablantes (idiomas vs países) con el vector de conectividad (porcentaje de conectados por país). Luego la realidad es que son muchos los factores que modulan ese ratio por encima o por debajo de 1, según qué lengua: hablantes de lenguas y país donde acceden a los contenidos: tarifa, ancho de banda, educación digital, aplicaciones e.government, entorno empresarial, capacidades tecnológicas de la lengua, presencia en las principales aplicaciones, etc. Si puede obtener indicadores de todos esos parámetros, hay muchas posibilidades, si sólo se procesan grandes datos (lenguas con un gran número de hablantes) de que su «ecuación estadística creada» sea una aproximación razonable. Tenga en cuenta que una gran proporción de los factores dependen de los países y no de las lenguas, pero la existencia de la matriz de lenguas por país permite jugar el juego, proporcionando algunas simplificaciones, que sin duda traen sesgos, pero tales sesgos pueden llegar a ser marginales con grandes números.
Obviamente, si los resultados del modelo OBDILCI pudieran ser confirmados por alguna medición de datos reales, siempre que estén controlados por sesgos, esto aumentaría la confianza…
ENFOQUE 6: OBDILCI MECILDI ESTUDIOS PREVIOS
Fuente: https://obdilci.org
Método: Se trata de un esfuerzo manual aplicado a una serie de diez veces 100 sitios tomados al azar de la lista TRANCO. Hemos comprobado manualmente todos los idiomas de cada sitio web, y cómo se implementan las opciones lingüísticas, tanto en la interfaz como en la fuente HTML, con el fin de estudiar la estrategia y las tácticas para poder tener en cuenta en un futuro un enfoque de exploración basado en la detección de idiomas (véase el enfoque 6). Aprovechamos la oportunidad para aproximarnos a un indicador clave totalmente desconocido en esta fase: la tasa de multilingüismo de la Web, definida por el número total de versiones lingüísticas dividido por el número total de sitios web (la misma tasa para toda la humanidad se mide en 1,443, siguiendo la fuente Ethnologue y esperamos que la Web tenga una cifra mayor). Esta cifra es la clave para evaluar la magnitud del sesgo de no tener en cuenta el multilingüismo de la Web: por ejemplo, si su valor es 2, entonces el sesgo es del 100% de sobrevaloración de la proporción de inglés. Las primeras aproximaciones en la exploración manual de 1000 sitios web aleatorios de la lista Tranco se sitúan en torno a 2 (con una alta varianza, por lo que hay que tomarlo con cautela).
Tipo: Organización de la sociedad civil
Span: Twice in 2022 and 2024
Metodología expuesta: Sí. Totalmente transparente.
Metodología revisada por pares: Sí en https://doi.org/10.30564/fls.v6i5.7144
Discusión de sesgos: Sí
Intervalo de confianza de la cifra: no
Número de idiomas cubiertos: sólo inglés
Nuestro diagnóstico: Esto es sólo una entrada intermedia creada por la exploración humana de un subconjunto limitado de la web como una indicación de tendencia anotada con media y covarianza. Forma parte del proyecto MECILDI.
Source: https://obdilci.org
ENFOQUE 7 : MECILDI@OBDILCII
Método: OBDILCI tiene previsto crear en 2025 una nueva herramienta, un software que permita la detección lingüística en una serie de sitios web, con la debida y sistemática consideración del hecho de que los sitios web pueden ser multilingües. Esta herramienta servirá para varios proyectos y se probará primero utilizando la lista Tranco. Se han iniciado estudios previos para determinar estrategias y tácticas que tiendan a reflejar completamente las lenguas de los sitios web multilingües. Se trata de un problema complejo debido a la variedad de soluciones implementadas en los sitios web, muchas de las cuales no se reflejan directamente en el código fuente visible. Los estudios previos han permitido determinar algunas estadísticas y datos aproximados que serán útiles para mitigar los sesgos: porcentaje de sitios web que utilizan instrucciones lang=, porcentaje de sitios web que utilizan instrucciones hreflang=, porcentaje de sitios web que utilizan GoogleTranslate integrado, porcentajes de disposición de las opciones de idioma en la interfaz (arriba, al lado, abajo, indirectamente por opción de país, en una página de configuración), patrones de codificación utilizados para el multilingüismo… La complejidad conlleva una combinación de técnicas y enfoques, incluyendo probablemente algo de IA. Como nuestra capacidad informática es limitada, hemos optado por un enfoque estadístico: en lugar de analizar todos los sitios web, crearemos 100 muestras aleatorias de 1000 sitios web y gestionaremos la distribución estadística de los resultados para obtener la media, la varianza y el intervalo de confianza para cada idioma y el resto de parámetros.
Tipo: Organización de la sociedad civil
Span: Futuro (2025)
Metodología expuesta: Será
Metodología revisada por pares: Lo será.
Discusión de sesgos: Será
Intervalo de confianza de la cifra: Se calculará mediante un método estadístico
Número de idiomas cubiertos: 141, los idiomas que estamos presentes tanto en el modelo Obdilci como en GoogleTranslate. En otras palabras, el subconjunto de idiomas de 250 GoogleTranslate que tienen más de un millón de hablantes de L1. ¿Por qué? Porque para las lenguas con bajo número de hablantes el enfoque estadístico elegido no proporcionaría resultados serios.
Nuestro diagnóstico: Se trata de un proyecto que se realizará en 2025 abriendo vías a nuevas investigaciones.
II – COMPARACIÓN DE LOS RESULTADOS EN INGLÉS
W3TECHS 1/2023 | DATA PROVIDER 1/23 | NET SWEEPER 6/23 | IONAN Univ. 2020 | OBDILCI Main 5/2023 | MECILDI Pre-study 5/2024 | |
Inglés | 57.7% | 51% | 26.3% | 28.4% | 20% | 29% |
COMPARACIÓN DE LAS PRIMERAS LENGUAS
W3TECHS 11/2024 | DATA PROVIDER 1/23 | NETSWEEPER 6/23 | OBDILCI 5/2024 | |
1 | English 49.4% | English 51.3% | English 26.3% | English 20.4% |
2 | Spanish 6% | Chinese 10.»% | Chinese 19.8% | Chinese 18.9% |
3 | German 5.6% | German 7.3% | Spanish 8.1% | Spanish 7.7% |
4 | Japanese 5% | Spanish 3.9% | Arabic 5% | Hindi 3.8% |
5 | French 4.4% | Japanese 3.7% | Portuguese 4% | Russian 3.7% |
6 | Russian 4% | French 3.4% | Malay 3.4% | Arabic 3.7% |
7 | Portuguese 3.8% | Russian 2.8% | French 3.3% | French 3.4% |
8 | Italian 2.7% | Portuguese 2.7% | Japanese 3% | Portuguese 3.1% |
9 | Dutch 2.1% | Dutch 2.0% | Russian 2.8% | Japanese 2.2% |
10 | Polish 1.8% | Italian 1.9% | German 2.1% | German 2.2% |
11 | Turkish | Korean | Malay | |
12 | Persian | Turkish | Bengali | |
13 | Chinese | Italian | Turkish | |
14 | Vietnamese | Romanian | Italian | |
15 | Malay | Persian | Vietnamese |
¿QUÉ NOS DICEN ESAS COMPARACIONES?
- El cuidado es muy recomendable cuando se leen cifras sobre el porcentaje de idiomas en la Red, especialmente cuando se refiere al inglés, ya que no hay acuerdo entre los distintos resultados.
- Parecen surgir dos versiones diferentes del porcentaje de inglés: una alrededor del 50% y otra alrededor del 25%. ¿Sería ese el problema de la sobreestimación del 100% debido a la no consideración de la propiedad multilingüe de muchos sitios web y explicado en el enlace mencionado? Sí. El hecho de que DATAPROVIDER.COM expusiera cifras en 2023 que aún no utilizaban los datos multilingües que recogían valida esa hipótesis.
- Todos esos resultados convergen con una alta probabilidad de que el porcentaje de inglés en toda la Web, prestando la debida atención al multilingüismo de los sitios web, se sitúe en torno al 25%. Consulte https://www.obdilci.org/proyectos/principal/englishweb/ si quiere entender por qué.
- ¿Por qué el chino es tan bajo en los resultados de W3Techs? La cifra que indica W3Techs para el chino, menos del 2%, sabiendo que es el primer idioma de Internet en cuanto a usuarios, no es en absoluto creíble, como ya hemos informado en diversas publicaciones. ¿Dónde está el valor real del porcentaje de chino entre el 10% y el 20%? Dado que el chino se utiliza probablemente en muchos sitios bilingües (chino, inglés), podría aplicarse la misma regla y habría que multiplicar por 2 las cifras de DATAPROVIDER.COM y tendríamos un consenso sobre el 20%. Durante los estudios previos de MECILDI hemos descubierto que una elevada proporción de sitios web chinos (¡el 50% en nuestro muestreo!) establecen el parámetro lang= en inglés en lugar de en chino. ¿Podría ser esa la explicación del error en W3Techs? Utilizar ese parámetro, cuando está especificado, en lugar de aplicar la detección de idioma, parece, a primera vista, una decisión válida para ahorrar recursos de la CPU.
- Hasta el momento, Netsweeper podría considerarse el resultado más fiable, ya que su método dirigido a páginas web en lugar de sitios web evita el sesgo del multilingüismo y afirman cubrir 12.000 millones de páginas web, una cifra que podría representar el 30% del universo de páginas web, siguiendo la estimación de https://www.worldwidewebsize.com. Lamentablemente, no han respondido a nuestras numerosas solicitudes de información. La suposición de que exploran una gran proporción del universo de las páginas web es plausible y requeriría confirmación, de todos modos, sin más información, la cuestión del sesgo de selección sigue siendo indecidible Es notable, sin embargo, lo cerca que están esos resultados de la aproximación de OBDILCI. Las principales diferencias se refieren a las lenguas de la India (hindi, bengalí, urdu), cuya presencia en los contenidos podría estar sobreestimada por Obdilci o subestimada por Netsweeper. Este punto merece atención dada la importancia de la India en términos demográficos. Basándonos en un sólido estudio realizado en 2017 por KPMG, cuya conclusión es que los internautas indios tendían a utilizar cada vez más sus lenguas locales para navegar, mantenemos nuestras cifras pero necesitamos investigar por qué entonces el número de páginas web está tan infravalorado por los otros enfoques.
- Es interesante comparar las predicciones de OBDILCI con las mediciones de DATAPROVIDER.COM para idiomas con bajo nivel de contenidos. Hemos observado algunas coincidencias extremas (gallego y euskera), así como algunas cifras extremadamente alejadas (afrikáans, criollo haitiano, irlandés y lenguas indias). El sesgo de selección de países podría ser una explicación a investigar.
III INICIATIVAS DEL PRIMER PERIODO (1996-2011)
Podría ser interesante destacar los enfoques que se han desarrollado en el periodo anterior de la Web, de 1998 a 2011. Para más información, lea el siguiente artículo que cubre con más detalle ese periodo: «Doce años de medición de la diversidad lingüística en Internet: balance y perspectivas.«; D. Pimienta, D. Prado, A. Blanco, UNESCO CL/2009/WS1 – (en inglés)
Nos limitaremos a mencionar superficialmente cada proyecto; por orden cronológico.
Xerox Study (1996-2000)
Método: Enfoque lingüístico basado en la aparición de palabras frecuentes en el corpus.
Fuente: Grefenstette,G.; Noche, J. Estimation of English and non-English Language used on the WWW. Technical Report from Xerox Research Center Europe, 2000. https://arxiv.org/abs/cs/0006032
Span: Método de un solo disparo no replicado. Fue el primer intento histórico.
Discusión: Ofrecer algunos porcentajes de lenguas en comparación frente al inglés.
OBDILCI/Funredes (1998-2007)
Método: Utilizar la capacidad, fiable en este momento, de los motores de Búsqueda, para informar del número de ocurrencias de una cadena de caracteres en el conjunto de páginas web indexadas. Utilizar un vocabulario comparativo seleccionado con extremo cuidado de correspondencia sintáctica y semántica, asi como análisis de sesgo, para un conjunto seleccionado de lenguas: inglés, francés, español, italiano, portugués, catalán, rumano y alemán. Utilizar técnicas estadísticas para obtener resultados en términos de porcentaje de cada lengua en comparación con el inglés. El porcentaje de inglés se aproxima mediante diversas técnicas.
Fuente: Sitio histórico del Observatorio https://funredes.org/lc/english/inicio/
Span: Se organizaron varias mediciones en el periodo 1998-2007 que permitieron mostrar un declive del inglés del 80% al 50% y el crecimiento general de las lenguas europeas no inglesas. Fue el segundo intento histórico y el único, junto con LOP, que ha mantenido observaciones durante un largo periodo.
Discusión: La evolución de los motores de búsqueda, haciendo que después de 2007 esas cifras se perdieron totalmente fiabilidad, firmó el fin de ese método (y de muchos otros proyectos en todo el mundo que hacían uso de esa capacidad excepcional de contabilizar palabras o expresiones en la Web). OBDILCI/Funredes prosiguió su misión hasta 2017, cuando Funredes cesó sus actividades, con contribuciones en ese campo, principalmente hacia, francés y español, y la búsqueda de un nuevo enfoque, que surgió en 2012, a partir de las ideas de Daniel Prado de medir la presencia de lenguas, a través de una gran colección de indicadores y transformar los indicadores de los países en indicadores lingüísticos cruzándolos con datos demo-lingüísticos. Este nuevo método maduró en 2017 y conseguirá a controlar sus sesgos en 2022.
ISOC Quebec/Alis Technologies, seguida por OCLC (1997, 1999, 2002)
Método: Se obtiene una serie de páginas web mediante la generación aleatoria de 8000 números IP. Sobre esta serie se aplica un algoritmo de detección de idiomas y se calculan los porcentajes. Este método no es estadísticamente válido, ya que el requisito estadístico para obtener resultados fiables es evitar un disparo único y realizar varias ejecuciones, digamos 100 veces la misma operación para aplicar leyes estadísticas sobre la distribución obtenida (media, varianza, intervalo de confianza). Este método se repitió al idéntico dos veces en 1999 y 2002 con el mismo fallo. Las tres mediciones proporcionaron la misma puntuación del 80%, estable durante 5 años que, con un buen marketing, alimentó la mesinformación durante el periodo y hasta que las publicaciones de la UNESCO hicieron que los medios de comunicación pasaran al valor del 50%.
Span: Tres únicas tomas en 1997, 1999, 2002.
Fuentes: https://web.archive.org/web/20010810234537/http://alis.isoc.org/palmares.en.html https://www.researchgate.net/publication/271903988_How_World_Wide_Is_the_Web https://www.dlib.org/dlib/april03/lavoie/04lavoie.html
INKTOMI (2000)
Un motor de búsqueda, INKTOMI, anunció con enorme fuerza de marketing, sus mediciones de idiomas en la Web en 2000. Presentaban los 10 primeros idiomas con el inglés a la cabeza con un 86%. Un enorme detalle que pocos observadores parecieron relevar: ¡el total del porcentaje era 100% además de que muchos otros idiomas quedaban fuera de la cifra! Esto carecía de la más elemental seriedad matemática…
Google: Método del complemento de un espacio vacío (1988-2008)
Así denominamos a una facilidad descubierta por accidente en marzo de 1998, con AltaVista, y que Google replicó, que servía para conocer el tamaño, por idiomas, del índice del buscador, en aquellos tiempos. Haciendo una petición al buscador del tipo » -ggfdgfdyugfgvdgdv» donde el primer término es vacío y el segundo una cadena de caracteres que no aparecen en ninguna página web, la cifra del número de ocurrencias resultante era el número total de páginas web indexadas. Si primero se establecía un idioma, la respuesta era el número de páginas en ese idioma. Las cifras dada por Google con ese método era del mismo orden que las nuestras en aquel momento, cercana al 51% para el inglés en 2008, y el chino rondaba ya el 9%, cifra que W3Techs fija hoy en menos del 2%. Varias publicaciones se hicieron entonces pretendiendo haber computado las páginas web por idioma y simplemente copiando los resultados de ese método sin dar la fuente.
Language Observatory Project – LOP (2003-2011)
Método: Aplicación de la detección de idiomas en porciones de la Web, normalmente ccTLD de países donde los idiomas locales eran el objetivo. Este proyecto, un consorcio de universidades liderado por la Universidad de Nagaoka, encierro toda la esperanza de ver por fin este importante tema situado donde se merece, en la comunidad investigadora y dentro de un concepto de consorcio. La pertenencia común de Funredes/Obdilci y LOP a la red MAAYA (Red Mundial de Diversidad Lingüística) era además una promesa de fructífera cooperación. Esta cooperación se fortaleció a finales de 2010 cuando Funredes recibió de LOP los datos para la exploración de los ccTLD de América Latina y una estrecha interacción inicio para evaluar el material, sin embargo el catastrófico tsunami ocurrido en 2011 en Japón provocó, entre otros dramas, el brutal fin de este prometedor proyecto.
Fuentes: https://dl.acm.org/doi/10.1145/1062745.1062833 https://en.wikipedia.org/wiki/Language_observatory
UPC/IDESCAT (2003-2006)
La Universitat Politecnica de Catalunya con el Institut d’Estadística de Catalunya organizaron una base de datos de 2 millones de sitios web para comprobar la presencia del catalán con detección de lengua y presentaron resultados bastante cercanos a los de Funredes/Obdilci en 2005 y no tan cercanos en 2006.
Fuente: https://raco.cat/index.php/LlenguaUs/article/view/128275/177480
IV Una curva plausible de la evolución de los contenidos en inglés en línea
Para concluir, presentamos una curva bastante plausible de la evolución de la proporción de inglés en línea.
Extraído de la publicación francesa "Une histoire très brève de l'observation des langues dans l'Internet" en Culture et Recherche, nº 143, OTOÑO-INVIERNO 2022, La recherche culturelle à l'international, página 128-131.
Fuente de la imagen : https://www.obdilci.org/wp-content/uploads/2024/04/EnglishWeb.jpg
Proyectos OBDILCI
- Indicadores de la presencia de lenguas en la Internet
- Las lenguas de Francia en la Internet
- El francés en la Internet
- El portugués en la Internet
- El español en la Internet
- IA y multilinguismo
- Proyectos pre-históricos
- Muerte digital de las lenguas