Projet principal – Anglais@Web-W3Techs

Biais de multilinguisme de W3Tech

Biais de multilinguisme de W3Techs

Imaginons que le web soit composé de 5 sites web (W1 à W5) pour un total de 62 pages web et qu’il n’existe que 3 langues : l’anglais, le français et l’espagnol.

Supposons les compositions linguistiques suivantes des 62 pages web présentées dans ce tableau :

PAGES WEBW1W2W3W4W5TOTAL%
Anglais10510002540.32%
Espagnol00100102032.26%
Français0510201727.42%
TOTAL10103021062100%

En d’autres termes, nous avons :

  • W1 : un site web avec 10 pages en anglais
  • W2 : un site web avec 5 pages en anglais et 5 pages en français
  • W3 : un site web avec 10 pages dans chaque langue
  • W4 : un site web avec 2 pages en français
  • W5 : un site web avec10 pages en espagnol

Ce qui fait :

  • 25 pages en anglais
  • 20 pages en espagnol
  • 17 pages en français
  • pour un total de 62 pages

Par conséquent, les pourcentages corrects de langues sur le Web sont les suivants :

  • Anglais = 25/62 = 40,32%.
  • Espagnol = 20/62 = 32,26 %.
  • Français = 17/62 = 27,42%.

Supposons que nous ne soyons pas en mesure de calculer par page et que nous le fassions par site web, en tenant dûment compte du multilinguisme des sites web, les résultats corrects seront obtenus en divisant le nombre de sites web dans une langue donnée par le nombre total de versions linguistiques des sites web. Le tableau est alors le suivant :

PAGES WEB W1W2W3W4W5SITES DANS CETTE LANGUE% PAR LANGUE
Anglais10510 33/8=37,50%
Espagnol  101022/8=25,00%
Français 510233/8=37,50%
Versions linguistiques123118100%

Les résultats sont les suivants :

  • Anglais = 3/8 = 37,5%
  • Espagnol = 2/8 = 25%
  • Français = 3/8 = 37,5

Il est clair que cette méthode ne fournit pas une réponse correcte, mais seulement une approximation, car elle favorise les langues appartenant à des sites web comportant moins de pages, en l’occurrence le français. Il faut toutefois noter que dans le cas de la Toile, les quantités en jeu sont tellement élevées que ce biais peut devenir marginal.

Maintenant, si, comme W3Techs, nous ne prenons pas en compte le multilinguisme et que notre langue par défaut est l’anglais, nous prendrons ce tableau pour calculer :

PAGES
WEB
W1W2W3W4W5Nombre de sites par langue%
Anglais10510360%
Espagnol1010120%
Français5102120%
Langue de la page d’accueil AnglaisAnglaisAnglaisFrançaisEspagnol5 

Et les résultats finaux sont très éloignés de la réalité, avec un énorme biais en faveur de l’anglais :

  • Anglais = 60%
  • Français = 20%
  • Espagnol = 20%

La formule que nous avons définie, dans l’article cité en référence, pour « débiaiser » les résultats de W3Techs est la suivante : Pourcentage d’anglais correct = Résultats de W3Techs pour l’anglais / Taux de multilinguisme de l’échantillonnage.

Le taux de multilinguisme est défini comme le nombre total de versions linguistiques de sites web divisé par le nombre total de sites web.

Dans cet exemple, le taux de multilinguisme est de 8/5 = 1,6.

Si l’on divise les derniers résultats pour l’anglais, 60%, par 1,6, on obtient 37,50%, soit le même résultat que celui obtenu lors du deuxième calcul.

A noter que cette équation ne peut pas être appliquée à d’autres langues que l’anglais puisque l’anglais est la seule langue dans W3Techs dont le décompte est valide et peut donc être corrigé. Les pourcentages des autres langues dans W3Techs mesurent en fait, parmi les sites web dans ces langues, seulement ceux qui n’ont pas de version anglaise.

Nous avons essayé d’estimer le taux de multilinguisme de l’échantillonnage Tranco utilisé par W3Techs et avons trouvé qu’il pourrait être de l’ordre de 2. Notons que le taux de multilinguisme de l’humanité est actuellement estimé à 1,42 et qu’il n’est pas surprenant que le taux de multilinguisme du Word Wide Web soit largement supérieur. Sur la base de cette formule, lorsque W3Techs affirme que l’anglais représente 50 % du web, les résultats non biaisés sont de l’ordre de 25 %. En d’autres termes, le biais de W3Techs, provoqué par la non prise en compte du multilinguisme, pourrait être de 100%!

Si vous souhaitez approfondir ces considérations, lisez l’article.

Les projets d’OBDILCI

  • Indicateurs de la présence des langues dans l’Internet
  • Les langues de France dans l’Internet
  • Le français dans l’Internet
  • Le portugais dans l’Internet
  • L’espagnol dans l’Internet
  • IA et multilinguisme
  • DILINET
  • Projets pré-historiques
  • Mort numérique des langues