Saltar para o conteúdo

Estudo da UC San Diego indica que a IA já passa o Teste de Turing

Homem jovem a trabalhar num portátil com videoconferência, café quente e caderno numa mesa de madeira.

Em 1950, o matemático britânico Alan Turing lançou um desafio aparentemente simples: será que uma máquina conseguiria manter uma conversa tão credível e humana que as pessoas não conseguissem, de forma fiável, distinguir uma da outra? Durante décadas, a resposta foi negativa.

Um novo estudo da Universidade da Califórnia em San Diego (UC San Diego) indica que, discretamente, essa resposta passou a ser afirmativa - e que as consequências merecem mais atenção do que a que têm recebido.

Esta investigação é a primeira a submeter modelos modernos de linguagem com IA a um teste rigoroso seguindo o enquadramento original de Turing.

É também a primeira a concluir que estes modelos foram avaliados como humanos com a mesma frequência que pessoas reais - e, num dos casos, com uma frequência significativamente superior.

Dentro da experiência

O desenho do teste foi intencionalmente simples. Um “interrogador” humano mantinha, em simultâneo, duas conversas por texto com dois interlocutores diferentes - um era uma pessoa real e o outro era uma IA - e, no fim, tinha de decidir qual era qual.

As conversas duravam cinco ou 15 minutos. No total, participaram quase 500 pessoas, distribuídas por dois grupos: estudantes de licenciatura da UC San Diego e uma amostra online mais abrangente.

Foram avaliados quatro sistemas de IA. Os dois modelos de ponta eram o GPT-4.5 e o LLaMa-3.1-405B.

Para comparação, os investigadores incluíram ainda o GPT-4o e o ELIZA - um chatbot baseado em regras dos anos 1960 que, desde então, se mantém como referência na investigação em IA.

A IA já consegue enganar as pessoas

Os resultados foram marcantes. O GPT-4.5 foi identificado como humano em 73% das vezes.

Na prática, isto significa que os interrogadores o escolheram como “a pessoa real” mais frequentemente do que escolheram o humano que estava do outro lado da conversa.

O LLaMa-3.1-405B foi considerado humano em 56% das ocasiões, um valor estatisticamente indistinguível do desempenho das pessoas com quem foi comparado.

Já os sistemas mais antigos ficaram muito aquém: o ELIZA e o GPT-4o foram reconhecidos como humanos apenas 23% e 21% das vezes, respetivamente.

A personalidade contou mais do que a inteligência

O que levou as pessoas ao engano não foi a inteligência - foi a personalidade. Os modelos que “passaram” não o fizeram por serem mais espertos ou por saberem mais do que os humanos, mas por se comportarem de forma mais humana.

A cada modelo foi dado um prompt de “persona”, instruindo-o a adotar uma personagem humana específica e um estilo de comunicação concreto.

Essa instrução teve um impacto enorme: sem ela, a taxa de sucesso do GPT-4.5 desceu de 73% para 36% e a do LLaMa-3.1 caiu de 56% para 38 percent.

Modelos que soam convincentemente humanos

O autor principal do estudo, Cameron Jones, realizou a investigação enquanto concluía o doutoramento em ciência cognitiva na UC San Diego e é atualmente professor auxiliar de psicologia na Stony Brook University.

“"O que descobrimos é que, com os prompts certos, LLMs avançados conseguem exibir o mesmo tom, frontalidade, humor e falibilidade que os humanos", disse Jones.

“"Embora saibamos que os LLMs conseguem produzir conhecimento sobre praticamente qualquer tema, este teste mostrou que também conseguem apresentar, de forma convincente, traços comportamentais sociais - o que tem implicações importantes na forma como pensamos a IA".”

Os modelos conseguiam agir de forma credivelmente humana, mas sobretudo quando lhes era dito, com precisão, como o fazer. Quando funcionavam sem essa orientação, tornavam-se muito menos persuasivos.

“"Eles têm a capacidade de parecer humanos, mas talvez não tanto a capacidade de perceber o que seria necessário para parecer humanos", disse o coautor Ben Bergen, professor de ciência cognitiva na UC San Diego.”

O que o Teste de Turing mede

Setenta e seis anos depois de Turing ter formulado a pergunta, o teste acaba por avaliar algo bastante diferente do que ele pretendia inicialmente.

“"O Teste de Turing começou como uma forma de perguntar se as máquinas podiam rivalizar com a inteligência humana", disse Bergen.”

“"Mas agora sabemos que a IA consegue responder a muitas perguntas mais depressa e com maior precisão do que as pessoas, por isso a questão real já não é a potência intelectual bruta".”

“"Ver que as máquinas conseguem passar no teste - e ver como o fazem - obriga-nos a repensar o que ele mede. Cada vez mais, está a medir a semelhança com o humano".”

A inteligência “bruta” - responder a perguntas, resolver problemas, processar informação - é algo que já aceitamos que a IA consegue fazer.

O que é mais recente, e mais estranho, é uma IA capaz de imitar a textura de ser humano: as hesitações, as piadas, a sensação de que existe uma pessoa do outro lado da conversa.

Como isto altera o comportamento online

As implicações práticas são desconfortáveis. Estes modelos não estão a passar o Teste de Turing apenas em condições laboratoriais cuidadosamente controladas e distantes do quotidiano.

Estão a passá-lo em conversas com a duração e o tipo que acontecem constantemente na Internet - uma troca de cinco minutos, um chat de quinze minutos.

“"É relativamente fácil dar prompts a estes modelos para serem indistinguíveis de humanos", disse Jones. "Temos de estar mais atentos; quando interage com desconhecidos online, as pessoas deviam ter muito menos confiança de que sabem que estão a falar com um humano e não com um LLM".”

“"O Teste de Turing é um jogo de mentir para os modelos. Uma das implicações é que os modelos parecem ser mesmo bons nisso".”

“"Há muitas pessoas que gostariam de usar bots para convencer outras a partilhar os seus números de segurança social, a votar no seu partido ou a comprar o seu produto", acrescentou Bergen.”

Nada disto significa que o facto de a IA passar o Teste de Turing seja, por si só, uma má notícia - e os investigadores têm o cuidado de não o apresentar dessa forma.

Mas significa, sim, que uma capacidade que muitos julgavam ainda estar confortavelmente no futuro já chegou.


Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário