Proyecto Pincipal – Inglés@Web-W3Techs

Sesgo de multilingüismo de W3Techs

Sesgo de multilingüismo de W3Techs

Imaginemos que la web se compone de 5 sitios web (W1 a W5) para un total de 62 páginas web y que sólo existen 3 idiomas: inglés, francés y español.

Supongamos las siguientes composiciones lingüísticas de las 62 páginas web que aparecen en esta tabla:

PÁGINAS WEBW1W2W3W4W5TOTAL%
Inglés10510002540.32%
Español00100102032.26%
Francés0510201727.42%
TOTAL10103021062100%

En otros términos, tenemos:

  • W1: un sitio web con 10 páginas en inglés
  • W2: un sitio web con 5 páginas en inglés y 5 páginas en francés
  • W3: un sitio web con 10 páginas en cada idioma
  • W4: un sitio web con 2 páginas en francés
  • W5: un sitio web con 10 páginas en español

Lo que hace :

  • 25 páginas en inglés
  • 20 páginas en español
  • 17 páginas en francés
  • para un total de 62 páginas;

Por lo tanto, los porcentajes correctos de lenguas en la Web son:

  • English = 25/62 = 40.32%
  • Español = 20/62 = 32,26%.
  • Francés = 17/62 = 27.42%

Supongamos que no podemos calcular por páginas web y lo hacemos por sitios web, con la debida consideración al multilingüismo de los sitios web, entonces los resultados correctos se harán dividiendo el número de sitios web en un idioma determinado por el número total de versiones lingüísticas de los sitios web. Entonces la tabla es:

PÁGINAS WEBW1W2W3W4W5SITIOS WEB EN ESTE IDIOMA% POR IDIOMA
Inglés10510 337.50%
Español  1010225.00%
Francés 5102337.50%
Versiones lingüísticas123118100%

Y los resultados son:

  • Inglés = 3/8 = 37,5%.
  • Español = 2/8 = 25%
  • Francés = 3/8 = 37,5%.

Evidentemente, este método no proporciona la respuesta correcta, sino sólo una aproximación, ya que favorece a las lenguas pertenecientes a sitios web con menos páginas, en ese caso el francés. Tenga en cuenta que con los enormes números del espacio Web real este sesgo probablemente no sea tan importante.

Ahora, si, como W3Techs, no tenemos en cuenta el multilingüismo y nuestro idioma por defecto es el inglés, tomaremos esta tabla para calcular:

PÁGINAS WEBW1W2W3W4W5Recuento de sitios%
Inglés10510360%
Español1010120%
Francés5102120%
Idioma de la página de inicio detectadoInglésInglésInglésFrancésEspañol5 

Y los resultados finales están muy lejos de la realidad, con un enorme sesgo a favor del inglés:

  • Inglés = 60%.
  • Francés = 20%.
  • Español = 20%.

La fórmula que hemos definido, en el documento de referencia, para remover el sesgo a los resultados de W3Techs es : Porcentaje de inglés correcto = Resultados de W3Techs para el inglés / Tasa de multilingüismo de la muestra.

El Índice de Multilingüismo se define por el número total de versiones lingüísticas de la web dividido por el número total de sitios web.

En este ejemplo, el índice de multilingüismo es de 8/5 = 1,6

Si dividimos los últimos resultados de inglés, 60%, por 1,6 obtenemos 37,50%, el mismo resultado que obtuvimos en el segundo cálculo.

Tenga en cuenta que esta ecuación no puede aplicarse a otros idiomas además del inglés, ya que el inglés es el único idioma en W3Techs cuyo recuento es válido y, por tanto, puede corregirse. Los porcentajes de otros idiomas en W3Techs miden de hecho dentro de los sitios web en esos idiomas solamente los que no tienen versión en inglés.

Hemos intentado aproximar la tasa de multilingüismo del muestreo Tranco utilizado por W3Techs y hemos comprobado que podría rondar el 2. Obsérvese que la tasa de multilingüismo de la humanidad se estima actualmente en 1,42 y no es de extrañar que la tasa de multilingüismo de la Word Wide Web sea muy superior. Basándose en esa fórmula, cuando W3Techs dice que el inglés representa el 50% de la web, los resultados corregidos se sitúan en torno al 25%. En otras palabras, ¡el sesgo de W3Techs por no tener en cuenta el multilingüismo de la Web podría estar duplicando la realidad!

Si le interesa profundizar en esas consideraciones, ¡adelante, lea el articulo!

Proyectos OBDILCI

  • Indicadores de la presencia de lenguas en la Internet
  • Las lenguas de Francia en la Internet
  • El francés en la Internet
  • El portugués en la Internet
  • El español en la Internet
  • IA y multilinguismo
  • Proyectos pre-históricos