Saltar para o conteúdo

Fósseis digitais: como "vegetative electron microscopy" ficou presa na IA

Homem em bata branca a estudar microscopia num computador com microscópios e caderno na mesa.

No início deste ano, investigadores repararam numa expressão insólita a surgir em artigos científicos publicados: "vegetative electron microscopy".

Apesar de soar a jargão especializado, trata-se de uma construção sem sentido - um "fóssil digital": um erro que ficou registado e, com a ajuda de sistemas de inteligência artificial (IA), passou a ser replicado e reforçado de forma tão persistente que quase não há maneira de o expurgar dos nossos repositórios de conhecimento.

Tal como os fósseis biológicos aprisionados na rocha, estes artefactos digitais correm o risco de se tornarem elementos permanentes do ecossistema de informação.

O episódio de "vegetative electron microscopy" é um sinal preocupante de como sistemas de IA conseguem perpetuar - e até amplificar - incorrecções que acabam por atravessar a nossa memória colectiva.

Uma má digitalização e um erro de tradução

A origem de "vegetative electron microscopy" parece resultar de uma coincidência improvável de falhas independentes.

Em primeiro lugar, dois artigos da década de 1950, publicados na revista Bacteriological Reviews, foram digitalizados a partir de cópias em papel.

Só que, durante a digitalização, ocorreu um erro: o processo juntou indevidamente "vegetative" que estava numa coluna de texto com "electron" que se encontrava noutra. Dessa colagem acidental nasceu o termo fantasma.

Muitos anos depois, "vegetative electron microscopy" voltou a aparecer em alguns artigos científicos iranianos. Em 2017 e 2019, dois trabalhos incluíram a expressão em inglês em legendas e resumos.

Tudo indica que, aqui, o problema tenha sido um erro de tradução. Em farsi, as palavras correspondentes a "vegetative" e "scanning" distinguem-se apenas por um único ponto.

Um erro em crescimento

O resultado? Até hoje, "vegetative electron microscopy" surge em 22 artigos, de acordo com o Google Scholar. Um deles esteve no centro de uma retratação contestada numa revista da Springer Nature, e a Elsevier emitiu uma correcção noutro caso.

A expressão também entrou em peças noticiosas que abordam investigações de integridade conduzidas posteriormente.

A partir da década de 2020, "vegetative electron microscopy" começou a aparecer com maior regularidade. Para perceber o motivo, foi necessário olhar para dentro dos modelos de IA actuais - e fazer um trabalho quase arqueológico, escavando as várias camadas de dados usadas no treino.

Evidência empírica de contaminação por IA

Os grandes modelos de linguagem que alimentam chatbots modernos, como o ChatGPT, são "treinados" com enormes quantidades de texto para prever a palavra seguinte mais provável numa sequência. O conteúdo exacto dos dados de treino tende, no entanto, a ser protegido como segredo comercial.

Para verificar se um modelo "conhecia" "vegetative electron microscopy", introduzimos excertos dos artigos originais e observámos se o sistema completava o texto com o termo sem sentido ou com alternativas mais plausíveis.

Os resultados foram esclarecedores. O GPT-3, da OpenAI, completou de forma consistente as frases com "vegetative electron microscopy". Já modelos anteriores, como o GPT-2 e o BERT, não o fizeram. Esse padrão permitiu-nos delimitar quando e onde a contaminação provavelmente ocorreu.

Também confirmámos que o erro se mantém em modelos mais recentes, incluindo o GPT-4o e o Claude 3.5, da Anthropic. Isto sugere que o termo absurdo poderá estar agora incorporado de forma duradoura nas bases de conhecimento usadas por estes sistemas.

Ao cruzarmos o que é conhecido sobre conjuntos de dados de treino de diferentes modelos, identificámos o dataset CommonCrawl - composto por páginas da internet recolhidas automaticamente - como o vector mais provável através do qual os modelos de IA terão aprendido a expressão pela primeira vez.

O problema da escala

Detectar erros deste tipo já é difícil. Corrigi-los poderá ser quase impraticável.

Um dos motivos é a escala. O CommonCrawl, por exemplo, tem milhões de gigabytes. Para a maioria dos investigadores fora das grandes empresas tecnológicas, os recursos computacionais necessários para trabalhar com volumes deste tamanho estão fora de alcance.

Outro factor é a falta de transparência dos modelos comerciais. A OpenAI e muitos outros produtores de IA recusam-se a divulgar detalhes precisos sobre os dados usados no treino. Além disso, tentativas de engenharia inversa a alguns destes conjuntos de dados têm sido travadas por remoções ligadas a direitos de autor.

Quando uma falha é identificada, não existe uma solução simples. Uma filtragem por palavras-chave poderia bloquear ocorrências específicas como "vegetative electron microscopy". No entanto, isso também apagaria referências legítimas (como as existentes neste artigo).

Mais profundamente, este caso deixa uma questão inquietante. Quantos outros termos sem sentido estarão escondidos em sistemas de IA, à espera de serem encontrados?

Implicações para a ciência e para a edição académica

Este "fóssil digital" levanta igualmente dúvidas importantes sobre a integridade do conhecimento, numa altura em que a investigação e a escrita assistidas por IA se tornam cada vez mais comuns.

Quando alertados para artigos que continham "vegetative electron microscopy", os editores reagiram de forma desigual. Alguns retrataram os trabalhos afectados; outros optaram por defendê-los. A Elsevier, em particular, tentou justificar a validade do termo antes de, por fim, publicar uma correcção.

Ainda não sabemos se outros problemas deste género afectam os grandes modelos de linguagem, mas é muito provável que sim. Em qualquer cenário, o uso de IA já introduziu dificuldades adicionais no processo de revisão por pares.

Por exemplo, observadores têm apontado o aumento de "tortured phrases" usadas para contornar software automático de integridade, como "counterfeit consciousness" em vez de "artificial intelligence". Além disso, expressões como "I am an AI language model" foram encontradas noutros artigos que acabaram retratados.

Algumas ferramentas de triagem automática - como o Problematic Paper Screener - assinalam agora "vegetative electron microscopy" como indicador de possível conteúdo gerado por IA. Ainda assim, abordagens deste tipo só conseguem actuar sobre erros já conhecidos, não sobre os que permanecem por descobrir.

Viver com fósseis digitais

Com a ascensão da IA, aumentam as oportunidades para que erros fiquem fixados de forma permanente nos nossos sistemas de conhecimento, por via de processos que nenhum actor individual controla. Isto cria desafios simultâneos para empresas tecnológicas, investigadores e editoras.

As empresas tecnológicas precisam de ser mais transparentes sobre dados e métodos de treino. Os investigadores têm de encontrar novas formas de avaliar informação perante disparate convincente gerado por IA. As editoras científicas, por sua vez, devem reforçar a revisão por pares para detectar falhas tanto humanas como produzidas por IA.

Os fósseis digitais mostram não apenas a dificuldade técnica de vigiar conjuntos de dados gigantescos, mas também o desafio fundamental de manter conhecimento fiável em sistemas onde os erros se podem auto-perpetuar.

Aaron J. Snoswell, Research Fellow in AI Accountability, Queensland University of Technology; Kevin Witzenberger, Research Fellow, GenAI Lab, Queensland University of Technology, e Rayane El Masri, PhD Candidate, GenAI Lab, Queensland University of Technology

Este artigo é republicado de The Conversation ao abrigo de uma licença Creative Commons. Leia o artigo original.


Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário