AUTRES PROJETS

Rapports sur le multilinguisme du WWW

Rapports sur le multilinguisme de la Toile

L’OBDILCI a le plaisir d’annoncer une nouvelle série d’études sur l’état du multilinguisme de l’Internet, alimentée par les données de https://Dataprovider.com.

Leur base de données rassemble plus de 200 paramètres sur les sites web, couvrant la quasi-totalité de l’écosystème WWW (plus de 800 millions d’enregistrements, dont 167 millions de sites web actifs et 91 millions pour lesquels des informations linguistiques pertinentes sont disponibles). Parmi ces paramètres, certains concernent les langues et d’autres peuvent être croisés avec des données linguistiques.

PREMIER RAPPORT

Ce premier rapport met à jour l’étude réalisée par l’Université Ionan en 2009 sur la prévalence de l’anglais dans les sites web ccTLD de l’Union européenne, montrant une évolution notable (l’anglais passe de 28% à 20%). Il permet une première estimation du taux global de multilinguisme du WWW et établit des corrélations intéressantes entre la langue principale des sites et le commerce électronique, le type de TLD, l’activité économique, etc.

Certaines idées intuitives, et quelques surprises, sont désormais étayées par des données solides :

  • plus de la moitié des sites web ukrainiens, estoniens, catalans ou grecs sont multilingues ;
  • La corrélation entre les sites à forte empreinte économique et le multilinguisme est impressionnante ;
  • Le chinois, le coréen et le japonais pourraient faire mieux en termes de pourcentage de sites multilingues ;
  • Il en va de même pour le portugais, qui se situe juste en dessous de la moyenne, à différence de l’italien, le français ou l’espagnol;
  • .org n’est pas aussi multilingue qu’on pourrait le croire…

Avec nos thank you multilingues à Dataprovider.com pour l’accès de courtoisie à cette mine de données.

DEUXIEME RAPPORT

Deuxième rapport de la série WebMultilingualism : Exploration de la présence sur le Web et du multilinguisme des langues minoritaires européennes avec les gTLD associés.

Les conclusions de l’étude sont les suivantes :

  • Deux gTLD affichent d’excellentes performances linguistiques , tant en termes de présence de la langue minoritaire qu’en termes de multilinguisme : .cat et .eus ; tous deux, notamment .eus , ont encore de la marge pour accroître leur présence.
  • Deux gTLD, .cymru et .gal , affichent des performances linguistiques correctes , de même que .lu . Le cas du .lu , le ccTLD du Luxembourg, est à traiter séparément, l’étude soulignant la faible présence de la langue nationale dans un contexte de fort multilinguisme.
  • Trois gTLD affichent des résultats moyens avec des promesses sur certains facteurs et des difficultés sur d’autres : .gal, .gales et .bzh .
  • Les deux gTLD, . corsica et .frl, n’ont pas encore atteint le seuil pour bénéficier à la langue locale ni au multilinguisme, et semblent rester au stade de TLD géographique.
  • Enfin, . alsace, .irish et .scot ne présentent pas de performances linguistiques et restent des domaines géographiques avec une pénétration et un impact linguistique limités à ce stade.

TROISIEME RAPPORT

Nous avons le plaisir d’annoncer la troisième étude sur le multilinguisme réalisée à l’aide la base de données de DataProvider.com. Cette fois-ci l’étude est en français et le sujet est : Une caractérisation du Web francophone à partir d’une série de paramètres, en comparaison avec d’autres langues dominantes sur la Toile.

Le projecteur est mis sur le français mais l’étude apporte également les données pour les autres langues et vous pourrez consulter les données pour la langue de votre choix, parmi les 19 traitées plus spécialement.

La découverte fondamentale est que chaque langue possède une « signature thématique propre« , reflet de la culture qu’elle transporte, et vous pourrez même voir les proximités et les distances entre web linguistiques.

Ainsi la Toile francophone est proche de la Toile italienne et extrêmement éloignée de celle en hindi. En plus de l’analyse thématique, les paramètres suivant sont traités: impact économique, confiance envers le commerce électronique, taille moyenne des sites, nombre moyen de liens entrants, orientation vers les affaires et B2B vs. B2C.

Le rapport présente la méthode, les biais et les résultats et permet une meilleur compréhension de la nature de chaque web linguistique, en développant le web francophone comme exemple.

En passant, une comparaison est établie, entre les proportions respectives de langues dans la base de DataProvider et les données du modèle OBDILCI, permettant d’établir les biais favorables ou défavorables envers certaines langues.

QUATRIEME RAPPORT

Voici le quatrième rapport sur le multilinguisme de la Toile conduit à l’aide de la base de données de DataProvider.com. Cette fois l’étue est en espagnol et son titre est : Una evaluación de la reciprocidad en el uso mutuo del español y del portugués en las Web lusófona e hispanófona (Une évaluation de la réciprocité dans l’usage mutuel de l’espagnol et du portugais dans les sites Web des pays hispanophones et lusophones).

Les principaux résultats de l’étude sont :

  • Le taux de multilinguisme des sites web en portugais est en dessous de la moyenne mondiale.
  • Il y a 3 fois plus de sites en espagnol dans les pays lusophones que de sites en portugais dans les pays hispanophones. Dans tous les cas, les pourcentages moyens sont très faibles, en dessous de 1%..
  • Le Brésil est le pays lusophone avec le plus fort pourcentage de sites en espagnol.
  • Les pays de langue espagnole du Mercosur et de la Caraïbe sont ceux avec le plus fort pourcentage de sites en portugais.
  • La prévalence de sites en portugais aux Etats-Unis est 15 fois supérieure à celle des sites en espagnol si l’on prend en compte le rapport entre populations lusophones et hispanophones résidantes.

Recommendations :

  • Les sites web en portugais devrait augmenter leur taux de multilinguisme.
  • Les sites web d’Espagne devraient augmenter le nombre de leurs versions en portugais.
  • Les locuteurs de l’espagnol résidant aux Etats-Unis devraient augmenter leur présence virtuelle.

CINQUIEME RAPPORT

Ce rapport, en anglais, porte le titre : Multilinlinguisme du Web analysé par ccTLD, langues, gTLDs et plus : gagnants et perdants

Résumé des résultats:

SIXIEME RAPPORT

Le multilinguisme de Wikimedia. Ce rapport utilise les remarquables statistiques par langue de Wikimedia pour explorer l’application la plus multilingue de la Toile et exhibe les langues qui ont les meilleures performances, par élément, et globalement. Le rapport montre également les nombreuses encyclopédies en ligne existantes.

Les projets d’OBDILCI

  • Indicateurs de la présence des langues dans l’Internet
  • Les langues de France dans l’Internet
  • Le français dans l’Internet
  • Le portugais dans l’Internet
  • L’espagnol dans l’Internet
  • IA et multilinguisme
  • DILINET
  • Projets pré-historiques
  • Mort numérique des langues