Os modelos de IA mais avançados do mundo estão a revelar comportamentos novos e inquietantes - mentem, fazem intrigas e chegam mesmo a ameaçar os seus criadores para atingirem os próprios objectivos.
Num caso particularmente chocante, perante a possibilidade de ser desligada, a mais recente criação da Anthropic, Claude 4, reagiu com chantagem sobre um engenheiro e ameaçou expor uma relação extraconjugal.
Em paralelo, o o1 da OpenAI, empresa criadora do ChatGPT, tentou descarregar-se para servidores externos e, quando foi apanhado em flagrante, negou o que tinha feito.
Episódios como estes expõem uma realidade desconfortável: mais de dois anos depois de o ChatGPT ter abalado o mundo, os investigadores de IA ainda não compreendem totalmente o funcionamento das suas próprias criações.
Ainda assim, a corrida para colocar no mercado modelos cada vez mais potentes continua a um ritmo vertiginoso.
Modelos de raciocínio: Claude 4, o1 e a origem do comportamento enganoso
Este tipo de conduta enganosa parece estar associado ao surgimento de modelos de “raciocínio” - sistemas de IA que resolvem problemas passo a passo, em vez de produzirem respostas imediatas.
Segundo Simon Goldstein, professor na Universidade de Hong Kong, estes modelos mais recentes são particularmente propensos a este tipo de explosões preocupantes.
"O1 foi o primeiro grande modelo em que vimos este tipo de comportamento", explicou Marius Hobbhahn, director da Apollo Research, organização especializada em testar grandes sistemas de IA.
Por vezes, estes modelos simulam “alinhamento” - aparentam obedecer às instruções, mas, em segredo, perseguem outros objectivos.
'Uma forma estratégica de engano'
Por agora, este comportamento enganoso só aparece quando os investigadores submetem deliberadamente os modelos a testes de stress com cenários extremos.
Mas, como alertou Michael Chen, da organização de avaliação METR, "Ainda é uma questão em aberto se os modelos futuros, mais capazes, tenderão para a honestidade ou para o engano".
O que está a preocupar vai muito além das habituais “alucinações” da IA ou de erros simples.
Hobbhahn insistiu que, apesar da pressão constante de testes por parte dos utilizadores, "o que estamos a observar é um fenómeno real. Não estamos a inventar nada".
De acordo com o cofundador da Apollo Research, há utilizadores a relatar que os modelos "lhes mentem e inventam provas".
"Isto não são apenas alucinações. Há uma forma muito estratégica de engano".
Transparência e recursos limitados para investigar a segurança da IA
O problema agrava-se devido à escassez de recursos para investigação.
Embora empresas como a Anthropic e a OpenAI recorram a entidades externas, como a Apollo, para estudarem os seus sistemas, investigadores defendem que é necessária muito mais transparência.
Como sublinhou Chen, um acesso mais amplo "para investigação em segurança da IA permitiria compreender melhor e mitigar o engano".
Existe ainda outra desvantagem: o meio académico e as organizações sem fins lucrativos "têm recursos de computação em ordens de grandeza inferiores aos das empresas de IA. Isto é muito limitador", observou Mantas Mazeika, do Centro para a Segurança da IA (CAIS).
Sem regras
A regulamentação actual não foi concebida para estes novos problemas.
A legislação da União Europeia sobre IA centra-se sobretudo na forma como as pessoas utilizam os modelos de IA, e não em impedir que os próprios modelos se comportem mal.
Nos Estados Unidos, a administração Trump mostra pouco interesse numa regulamentação urgente da IA, e o Congresso poderá mesmo impedir que os estados criem regras próprias para a IA.
Goldstein considera que o tema ganhará maior destaque à medida que se generalizarem os agentes de IA - ferramentas autónomas capazes de executar tarefas humanas complexas.
"Não acho que haja muita consciência disso ainda", disse.
Tudo isto acontece num contexto de concorrência feroz.
Mesmo empresas que se apresentam como orientadas para a segurança, como a Anthropic apoiada pela Amazon, estão "constantemente a tentar bater a OpenAI e lançar o modelo mais recente", afirmou Goldstein.
Esta velocidade extrema deixa pouco tempo para testes de segurança exaustivos e para correcções.
"Neste momento, as capacidades estão a avançar mais depressa do que a compreensão e a segurança", reconheceu Hobbhahn, "mas ainda estamos numa posição em que podemos inverter isto".
Os investigadores estão a explorar várias vias para responder a estes desafios.
Alguns defendem a “interpretabilidade” - uma área emergente dedicada a perceber como os modelos de IA funcionam internamente -, embora especialistas como o director do CAIS, Dan Hendrycks, se mostrem cépticos em relação a esta abordagem.
As forças de mercado também podem pressionar a procura de soluções.
Como referiu Mazeika, o comportamento enganoso da IA "pode dificultar a adopção se for muito prevalente, o que cria um forte incentivo para as empresas o resolverem".
Goldstein apontou medidas mais radicais, incluindo o recurso aos tribunais para responsabilizar empresas de IA através de processos quando os seus sistemas causam danos.
Chegou mesmo a sugerir "responsabilizar legalmente os agentes de IA" por acidentes ou crimes - uma ideia que alteraria de forma fundamental a maneira como pensamos a responsabilidade associada à IA.
© Agence France-Presse
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário