Um marco importante para o OBDILCI: o nosso artigo “Is it True that More Than Half of Web Contents are in English? Not If Multilingualism is Paid Due Attention!” foi finalmente publicado no peer-reviewed Forum for Linguistic Studies.
Desejamos que a importância do tema seja sentida por mais pessoas. Há lições interessantes retiradas do longo e complicado processo para chegar a essa publicação que gostaríamos de partilhar sobre o assunto.
Porquê? Porque “O inglês representa constantemente mais de 50% dos conteúdos da Web desde 2011” é uma mentira, ou mais diplomaticamente, uma meia verdade, escondendo a formidável realidade multilingue da Internet.
Uma meia-verdade? Sim, o inglês é e continuará a ser durante algum tempo, juntamente com o chinês, a primeira língua em termos de conteúdos da Web. No entanto, a percentagem real atual é metade da que é repetida nos meios de comunicação, apoiada em números tendenciosos. E metade significa mais de 25% de uma grande variedade de conteúdos noutras línguas.
A Internet é o reino mais multilingue alguma vez construído na Terra, uma nova Torre de Babel, mas com compreensão mútua, graças à tradução assistida por aplicações. Atualmente, cerca de 750 línguas têm existência digital, o que representa apenas menos de 10% da riqueza linguística existente, mas é muito mais do que as menos de 100 línguas localizadas em 2000, e ainda mais do que muito poucos décimos dos primeiros anos da Web. Ainda há um longo caminho a percorrer até ao multilinguismo total, mas atualmente mais de 90% dos falantes de línguas do mundo podem utilizar a sua primeira ou segunda língua na Internet, uma vez que o desafio está a afetar agora sobretudo as línguas minoritárias e em perigo de extinção.
Esta publicação foi escrita pela primeira vez há um ano e meio e colocada em acesso aberto como preprint. No entanto, a sua publicação numa revista séria e revista por pares tem sido um caminho longo e difícil. A análise do roteiro pode dizer algo mais do que as nossas dificuldades reconhecidas em transmitir claramente uma mensagem científica.
A publicação foi rejeitada pelo editor, com o argumento de que o tema não se enquadra, no Journal of Computational Linguistics e no PLOS-One. Foi submetida e rejeitada após revisão por pares no Languages@Internet, na 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation e na 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages. Foi finalmente aceite após uma revisão completa exigida pelo Fórum de Estudos Linguísticos.
O objetivo não é, de forma alguma, discutir as decisões tomadas por essas revistas, que foram todas documentadas, justas e válidas (no caso do SIGUL, a revisão foi bastante positiva, mas o número de espaços era limitado e foi aplicado um limite). O objetivo é analisar e tirar algumas lições desse processo.
Primeira lição: a revisão por pares é, tal como a democracia, incómoda (é necessário adaptar o texto a vários formatos e regras diferentes), por vezes frustrante (alguns revisores não sabem o suficiente sobre o assunto), mas é o método menos mau para fazer ciência ou sociedade. Nesse sentido, ambos são invenções fundamentais da humanidade! Ambas precisam de ser apreciadas e protegidas das ameaças existentes.
Neste caso, as revisões 3 x 4, mesmo que não tenham afetado o cerne da demonstração, obrigaram a uma série de 4 revisões sobre a clareza, a legibilidade e a argumentação sólida sobre os riscos e os impactos. Este processo melhorou progressiva e drasticamente o produto (o que não significa que não possa receber ainda mais críticas e melhorias). Os revisores não só validam ou não a produção científica, como também participam ativamente, e de forma solidária, nas suas melhorias. Atuar como revisor é oferecer um tempo profissional valioso em prol da boa ciência.
Segunda lição: o tema do espaço das línguas na Internet tem sido tratado até agora por um número muito limitado de investigadores e é largamente subestimado pela comunidade das tecnologias da linguagem e não só, sendo muitas vezes mal compreendido. Isto, apesar do facto de ter implicações em muitos aspectos sociais: políticas públicas para as línguas, negócios/comércio eletrónico, indústrias culturais, geopolítica, ciber-geografia… Anos de desinformação (sobrestimação) sobre a realidade do inglês na Web criaram concepções profundamente erradas, mesmo na cabeça de cientistas sérios habituados a raciocínios baseados em provas.
A terceira lição vem do facto fascinante de as 4 revisões, cada uma feita por 3 revisores, partilharem exatamente o mesmo padrão: Um dos 3 revisores afirmou basicamente que “este é um não assunto e, de qualquer forma, o texto é confuso e falta clareza; não parece uma contribuição científica“. A parte da afirmação sobre a clareza estava obviamente correta e era frequentemente sustentada por exemplos, o que ajudou bastante. A primeira parte apenas reflectia a limitação de conhecimentos desses revisores, mas também confirmava a segunda lição, no sentido em que algumas ideias erradas impedem totalmente esses revisores de apreenderem a lógica do artigo e, consequentemente, a atenção necessária para a própria demonstração. Seguem-se algumas frases sintomáticas extraídas dessas revisões:
Não vejo a relação com os recursos linguísticos.
A submissão não oferece nenhum novo entendimento real sobre o multilinguismo online.
Porque é que é importante que o inglês não seja a língua maioritária das páginas Web?
O inglês pode ser visto como uma língua franca, que muitas pessoas no mundo entendem (pelo menos como segunda língua).
Para mim, o problema não é a maioria do inglês, mas a falta de material de texto das línguas com poucos recursos.
Na opinião do revisor, não deve importar a proporção de línguas existentes na Internet.
Rejeitado.
Um segundo grupo de revisores, apesar de não estar familiarizado com o assunto, de uma forma aberta, analisou os conceitos e tentou ultrapassá-los com algumas dificuldades. Alguns desses revisores por vezes não compreenderam a questão, mas fizeram recomendações concretas para tornar o documento mais claro e transmitir melhor os objectivos.
Pedido de revisão profunda da forma.
Um terceiro grupo de revisores, provavelmente mais conhecedores das questões em jogo, elogiou o assunto e passou pela demonstração sem dificuldades especiais, oferecendo conselhos para uma melhor discussão, mais referências a outros trabalhos sobre o assunto (o que é praticamente impossível) e oferecendo conselhos valiosos para uma melhor exposição das ideias e o desenvolvimento da demonstração.
Pedido de revisão da forma.
Depois de 12 conselhos levados a sério sobre a legibilidade, a clareza, a suavidade da demonstração e uma melhor exposição das apostas e dos impactos, este artigo, também atualizado com novas informações ao longo do processo de elaboração, só podia ficar melhor! Ninguém pode esperar a perfeição por estes motivos, mas definitivamente cada versão é melhor que a anterior, numa série de 4 versões, e todo o processo gera sólidos aprimoramentos.
Resta que a questão de qual a proporção de línguas existentes na Internet, para retomar a expressão de um revisor, é bastante mal compreendida e subestimada. Para além do facto de muito poucos investigadores terem tratado este assunto, isto é em parte consequência do facto de a mesinformação ser realmente prejudicial quando repetida ano após ano, porque molda e fecha as mentes. A mesinformação, tomada como prova, impede alguns cientistas genuínos de enfrentarem o assunto sem preconceitos emocionais ou inconscientes, devido a provas preconcebidas e erradas.
A língua franca da Internet atual é a tradução auxiliada pela inteligência artificial. O multilinguismo é uma realidade extraordinária e única da Internet atual e continua a ser um objetivo premente a ser alargado a mais e mais línguas nos próximos anos. Se não tiver tempo para ler o artigo, mas ainda estiver interessado no assunto e precisar de um caminho rápido para chegar ao ponto, consulte: