PROJET PRINCIPAL – V2.0 (2021)

Indicateurs de la présence des langues dans l’Internet

NOTE : Il s’agit d’une version archivée de l’étude. Cliquez ici pour consulter la version la plus récente

Version améliorée et deuxième version d’une approche alternative pour la production d’indicateurs des langues dans l’internet

Résumé du projet – V2.0 (2021)

Comme il a été démontré en 2017, l’effort louable de W3Techs pour proposer des chiffres actualisés quotidiennement pour les contenus est biaisé à de nombreux niveaux (le plus fort, mais pas le seul, étant l’absence de prise en compte du multilinguisme et le fait que la plupart des sites web multilingues incluant l’anglais sont probablement calculés comme étant uniquement en anglais). Cette source projette des valeurs extrêmement exagérées pour les contenus en anglais sur le web (plus de 50 % alors que la réalité est probablement aujourd’hui inférieure à 25 %).

Le manque de sources alimente le mythe véhiculé par les médias selon lequel plus de la moitié des sites web sont en anglais. C’était le cas entre 2007 et 2009, mais depuis la croissance exponentielle du chinois, de l’hindi, de l’arabe, du turc, du bengali, du vietnamien, de l’ourdou, du persan et du marathi, pour nommer les nouvelles langues dans les 20 premiers rangs et pesant ensemble près de 28 % des contenus, a radicalement changé la situation et l’anglais ne représente plus aujourd’hui qu’un quart des contenus. Entre 2000 et 2007, le mythe selon lequel l’anglais occupait 80 % du Web a finalement disparu après la publication de l’UNESCO en 2009 et une présence de l’anglais sur le Web autour de 50 % a été la valeur acceptée.

Comment se pourrait-il que l’anglais soit resté stable à 50 % au cours des 14 dernières années alors que l’internet a radicalement changé sa démographie et que le nombre de locuteurs d’anglais connectés (L1+L2) a diminué de 32% du total des personnes connectées en 2007 à seulement 13 % aujourd’hui ?

L’anglais reste la première langue du web en termes de puissance, mais les proportions changent radicalement. Le chinois est désormais la langue qui compte le plus grand nombre de locuteurs connectés. En termes de puissance, l’espagnol occupe une solide troisième place, suivi du français et de l’hindi, et un groupe de cinq langues se partagent une position proche en séquence : le portugais, le russe, l’arabe, l’allemand et le japonais.

En ce qui concerne les indicateurs indépendants du nombre de locuteurs (capacité et gradient), les langues des pays bien classés dans les paramètres de la société de l’information sont en tête : l’hébreu, le finnois, le suédois, le néerlandais, l’allemand et le danois.

Les mangues ayant les locuteurs les plus connectés sont le danois, le suédois, le japonais, le néerlandais, le suisse allemand et le finnois.

Tous les résultats pour les 132 langues de l’étude at la description complète de la méthodologie peuvent être lus dans les documents ci-dessous en anglais, français, espagnol ou portugais.


Résultats de l’étude 2021 (V2.0)

Plus d’informations

Percentage of English Pages in the Web

Cybergéographie des langues

Avertissement : Les statistiques ne concernent que les 133 langues avec L1>5 millions.

%L1 + L2%CON.W%CON.PUISSANCECAPACITÉGRADIENT
Langues africaines7.03%31.11%4.00%2.00%0.2840.519
Langues américaines0.21%53.80%0.21%0.13%0.5950.623
Langues asiatiques45.86%50.85%42.63%34.39%0.7500.783
Langues arabes3.53%60.14%3.89%3.09%0.8750.796
Langues européennes30.26%69.64%38.53%53.90%1.7811.415
Reste13.10%44.84%10.74%6.50%
  • W.Conn. : pourcentage de locuteurs de cette langue connectés à l’Internet par rapport au nombre total de locuteurs connectés à l’Internet.
  • W. Pop. : pourcentage de locuteurs de cette langue par rapport à la population mondiale totale L1+L2
  • L. Conn. : pourcentage de locuteurs L1+L2 de cette langue qui sont connectés à l’internet
  • TOUS LES POURCENTAGES CONCERNENT LES POPULATIONS L1+L2

Synthèse des résultats

  • Les langues européennes ont dominé l’Internet au début et en sont les langues historiques.
  • Le centre de gravité se déplace rapidement vers les langues asiatiques/arabes
  • Les langues africaines sont en retard mais associées à une forte croissance démographique

Crédits

Cette version a été rendue possible grâce au soutien du Departamento de Cultura e Educação do Ministério das Relações Exteriores do Brasil dans le cadre de l’Instituto Internacional da Língua Portuguesa et sous la coordination de la Cátedra UNESCO em Políticas Linguísticas para Multilinguismo. Le mérite en revient également à Daniel Prado, qui a eu le premier l’idée de collecter des sources multiples pour mesurer la présence des langues sur l’internet, ainsi que de transformer les données par pays en données linguistiques.

Merci à tous : Au professeur Gilvan Müller de Oliveira pour son soutien dans les questions linguistiques et la coordination avec les bailleurs de fonds ; à Álvaro Blanco pour avoir écrit des macros Excel délicates qui ont radicalement changé le traitement de tant de polices et d’orthographes de langues et de pays, et à David Pimienta, qui a écrit les macros Excel nécessaires pour transformer le format Ethnologue dans le format requis pour cette étude, ainsi que pour le traitement des macrolangues.

Avertissement : Cette étude est essentiellement un travail statistique basé sur une grande variété de sources. L’adoption d’une source importante dans ce type de travail implique aussi logiquement l’adoption des règles qui soutiennent les données de cette source. L’auteur n’est pas responsable de la liste des pays et territoires considérés, établie par l’UIT, un organisme des Nations Unies, ni de la liste des langues ayant plus de cinq millions de locuteurs L1, selon Ethnologue, ni du regroupement en macrolangues, adopté par Ethnologue, conformément à la norme ISO 693.3.

Les projets d’OBDILCI

  • Indicateurs de la présence des langues dans l’Internet
  • Les langues de France dans l’Internet
  • Le français dans l’Internet
  • Le portugais dans l’Internet
  • L’espagnol dans l’Internet
  • IA et multilinguisme
  • DILINET
  • Projets pré-historiques