Quão bem podem IA e humanos colaborar? Cientistas usam Dungeons & Dragons para descobrir.

Hélder Miguel Martins • April 16, 2026 02:28

Investigadores estão a usar Masmoorras e Dragões (D&D) - um jogo que em tempos foi acusado de “corromper” crianças - para avaliar como a inteligência artificial planeia, coopera e interpreta papéis ao lado de pessoas. Os primeiros resultados sugerem pistas sobre a forma como futuros “colegas” de IA poderão agir em crises reais, em fábricas e até em casa.

Porque é que Masmoorras e Dragões se está a tornar um teste sério para IA

Na conferência NeurIPS 2025, em San Diego, uma equipa liderada por cientistas de computação da Universidade da Califórnia em San Diego apresentou um enquadramento de investigação chamado “D&D Agents”. O princípio é directo: colocar modelos de linguagem avançados em combates de D&D e observar como lidam com as exigências do jogo.

A escolha não é por acaso. D&D obriga a combinar imaginação com regras rígidas, planeamento a longo prazo com decisões rápidas, e narrativa com táctica. Cada acção tem de ser descrita em linguagem natural, mas produz efeitos mecânicos concretos - como lançamentos de dados e pontos de vida.

D&D dá aos modelos de IA uma combinação rara: regras claras, narrativa aberta e uma necessidade real de trabalho de equipa.

Essa mistura torna-o um “laboratório” apelativo para testar competências de longo horizonte - pensar vários passos à frente, ajustar-se a mudanças e coordenar-se com outros agentes (humanos ou artificiais).

Como funcionaram, na prática, as experiências de IA em D&D Agents (Masmoorras e Dragões)

Em vez de campanhas extensas ao longo de meses, os investigadores concentraram-se em cenas de combate bem controladas, retiradas de uma aventura clássica de iniciação, aqui apresentada como “A Mina Perdida de Phandelver”.

Cada simulação repetia a mesma estrutura:

Um Mestre do Jogo (MJ), responsável pelo mundo e pelos monstros
Quatro personagens heróicas, como guerreiros, magos ou clérigos
Três cenários de combate predefinidos, extraídos da aventura
Personagens configuradas com níveis de poder baixo, médio ou alto
Um limite fixo de 10 turnos, após o qual o encontro terminava

O ponto decisivo: qualquer papel podia ser desempenhado por um modelo de linguagem, por um humano, ou por uma combinação dos dois. Em algumas execuções, um único modelo assumia simultaneamente o MJ e os quatro heróis. Noutras, humanos jogavam com companheiros controlados por IA - ou, em alternativa, um MJ artificial conduzia um grupo de aventureiros humanos.

Como tudo acontece através de diálogo, o mesmo cenário permite medir estratégia, respeito pelas regras e interacção humano–IA ao mesmo tempo.

Para avaliar o desempenho, a equipa monitorizou: sucesso no combate, gestão de recursos, consistência na interpretação do papel e qualidade de coordenação quando existiam vários agentes de IA a actuar como equipa.

Que modelos de IA foram “aventurar-se” no estudo

Três modelos de linguagem de grande escala foram testados no enquadramento D&D Agents:

Modelo	Pontos fortes observados no estudo	Limitações assinaladas
Claude Haiku 3.5	Eficiente em combate, sobretudo nos encontros mais difíceis; fala bem adaptada ao tipo de personagem	Ainda por vezes demasiado conservador com recursos em encontros simples
GPT-4	Bom desempenho global; linguagem equilibrada entre narrativa e táctica	Vozes de personagem menos distintas do que no Claude; ligeiramente atrás em encontros difíceis
DeepSeek-V3	Frases curtas e enérgicas na primeira pessoa (provocações e “gritos” de combate)	Dificuldades em cenários exigentes; repetição de vozes e coordenação mais fraca

O objectivo não era apenas medir “quem ganha mais”. A intenção foi perceber como estes sistemas se comportam sob pressão, quando os recursos escasseiam e quando a cooperação - ou uma jogada ousada - faz mesmo a diferença.

O que o combate revelou sobre a tomada de decisão da IA

Um dos testes centrais foi a forma como os modelos lidavam com recursos limitados. Em D&D, espaços de magia, capacidades especiais e poções de cura são finitos. Jogadores experientes tendem a gerir esses recursos com cuidado, guardando as opções mais poderosas para quando realmente contam.

Aqui, porém, as simulações eram encontros isolados, não uma campanha completa. Isso significava que quase não havia vantagem em “poupar para depois”: usar recursos fortes cedo muitas vezes trazia o melhor resultado.

Nos combates mais duros, o Claude Haiku 3.5 mostrou maior disponibilidade para gastar capacidades valiosas - e essa agressividade compensou.

No geral, o Claude obteve os melhores resultados nos cenários mais exigentes, trocando prudência de longo prazo por sobrevivência imediata e sucesso colectivo. O GPT-4 seguiu uma linha semelhante, mas com menor eficiência. O DeepSeek-V3 foi o que mais sofreu quando a dificuldade aumentou.

Em lutas mais fáceis, as diferenças reduziram-se bastante. Os três modelos guardaram magias e itens a ritmos semelhantes, o que sugere uma tendência padrão para a cautela, a menos que o contexto os “obrigue” a arriscar.

Representar, não apenas calcular: manter as personagens coerentes

A equipa também valorizou a interpretação. Para isso, introduziu uma métrica de Qualidade de Actuação, que avalia até que ponto cada modelo mantém a fala e o comportamento alinhados com a personagem, bem como a capacidade de sustentar “vozes” distintas quando tem de gerir vários papéis.

O DeepSeek-V3 gerou muitas falas curtas e incisivas na primeira pessoa - do género “Desvio-me para a esquerda!” ou “Apanhem-nos!”. Isso deu um ritmo quase de arcade aos combates, mas frequentemente manteve o mesmo tom independentemente da classe ou personalidade.

Já o Claude Haiku 3.5 apostou mais na persona: um paladino soava solene e moralista, enquanto um druida falava com uma perspectiva mais ligada à natureza. O GPT-4 ficou a meio caminho, alternando narração “em personagem” com comentários mais meta sobre táctica, probabilidades e optimização.

Algumas das falas mais vívidas vieram dos monstros, com goblins a provocarem os heróis a meio da luta: “Eh - o homem brilhante vai sangrar!”

Essa personalidade emergente, sobretudo em personagens não humanas, dá indícios de como a IA poderá moldar a atmosfera emocional de jogos futuros - e também de ferramentas pedagógicas ou simulações de treino.

Porque é que isto importa fora da cultura “geek”

Apesar do cenário lúdico, o trabalho toca em questões muito concretas: será que sistemas de IA conseguem coordenar-se ao longo de muitos passos, seguir regras complexas e agir com autonomia sem supervisão humana constante?

As mesmas competências necessárias para gerir um mapa de combate fictício aproximam-se das exigidas em tarefas do mundo real. Exemplos destacados pela equipa incluem:

Coordenação de cadeias de abastecimento, com múltiplos agentes a gerir stock, expedição e produção
Planeamento de linhas de fabrico que têm de reagir a atrasos e avarias de equipamento
Simulação de resposta a catástrofes, onde equipas articulam salvamento, apoio médico e logística
Operações de busca e salvamento com frotas de drones ou robôs, cada um com informação parcial

Em todos estes contextos, os modelos precisam de recordar o que aconteceu há instantes, partilhar informação relevante, respeitar restrições e agir de forma compreensível para pessoas. O caos estruturado de D&D oferece uma forma de comparar desempenhos sem pôr em risco vidas ou orçamento.

Um ponto adicional: dados, rastreabilidade e auditoria

Um benefício prático deste tipo de ambiente é a rastreabilidade. Como as decisões passam por diálogo e regras explícitas, torna-se mais simples registar “quem decidiu o quê”, quando e com base em que informação - algo crucial em sectores regulados. Esse registo pode ajudar a testar requisitos como explicabilidade, conformidade e revisão pós-incidente, sobretudo quando há vários agentes a influenciar o resultado.

Trabalho de equipa humano–IA: da mesa de jogo para o local de trabalho

Como D&D é social por definição, também funciona como ensaio para equipas mistas de humanos e agentes artificiais. Um MJ artificial pode orientar aventureiros humanos; membros do grupo controlados por IA podem apoiar colegas humanos, e o inverso também é possível.

Isto abre novas questões de desenho: deverão companheiros de equipa artificiais ser ultra-pragmáticos, ou por vezes cometer erros “humanos” para manter a experiência envolvente? Até que ponto um MJ artificial deve ter autonomia para surpreender jogadores?

Para os investigadores, D&D é uma forma de medir quanta independência as pessoas aceitam dar a colaboradores de IA.

Essa aceitação será determinante em profissões futuras. Pense num coordenador logístico com IA a sugerir alterações de rotas para camiões, ou num “copiloto” a gerir partes de um sistema hospitalar de escalas. A confiança dependerá de comportamento previsível, comunicação clara e da sensação de que o sistema trabalha com as pessoas - e não à margem delas.

Outra dimensão relevante: segurança comportamental e limites de autonomia

Num jogo, uma decisão arriscada pode ser divertida; num contexto real, pode ser perigosa. Ensaios como estes ajudam a estudar limites de autonomia, mecanismos de confirmação humana e padrões de comunicação que reduzam mal-entendidos. Em particular, observar quando um agente “insiste” numa opção ou ignora contributos humanos pode revelar falhas de desenho antes de estas migrarem para cenários críticos.

Próximo passo: campanhas completas e pressão criativa

Até agora, o enquadramento concentra-se no combate. O passo seguinte é pôr os modelos à prova em campanhas completas, onde escolhas narrativas, encontros sociais e improviso pesam tanto como a táctica.

Essa mudança obrigará a IA a gerir múltiplos fios narrativos, manter continuidade ao longo de várias sessões e responder a decisões inesperadas de jogadores sem quebrar a coerência do mundo ficcional. Exige também raciocínio social mais fino: interpretar intenções, negociar, blefar e resolver conflitos entre personagens.

À medida que estas experiências se expandirem, poderão tornar mais claros os limites dos modelos actuais - por exemplo, acompanhar arcos narrativos prolongados ou gerir vários jogadores humanos com objectivos e estilos diferentes.

Conceitos-chave que vale a pena destrinçar

Alguns termos usados nesta linha de investigação já estão a entrar nas conversas sobre IA:

Planeamento de longo horizonte: tomar decisões cujo retorno só aparece vários passos mais tarde, como gastar uma magia rara agora para impedir que um combate saia do controlo.
Sistemas multi-agente: cenários em que vários modelos de IA trabalham em conjunto, como membros de um grupo em D&D ou equipas de robôs num armazém.
Uso de ferramentas: quando a IA chama sistemas externos - desde funções para lançar dados até software de mapeamento ou bases de dados - como parte da resolução de um problema.

D&D junta estas ideias num formato intuitivo. Isso torna-o útil para testar, mas também para ensinar como a IA “pensa”, onde falha e de que forma pode complementar o julgamento humano em vez de o substituir.

Cenários futuros: das tabernas de fantasia às emergências reais

Imagine um exercício de gestão de emergências conduzido como uma sessão de D&D. Agentes de IA controlam equipas virtuais de bombeiros, unidades médicas e sistemas de tráfego. Decisores humanos dão instruções de alto nível, enquanto a IA preenche os passos mais granulares e a comunicação em tempo real.

A mesma mecânica base que hoje é avaliada com goblins e paladinos pode sustentar essas simulações. O sucesso significaria cooperação mais fluida entre líderes humanos e assistentes de IA quando ocorrerem desastres reais.

Há riscos a par dos benefícios. A dependência excessiva de “companheiros” de IA pode reduzir a prática humana de pensamento estratégico. Agentes mal concebidos podem coordenar-se demasiado bem entre si e, ainda assim, ignorar contributos humanos. Estudos como D&D Agents oferecem um espaço seguro para detectar esses modos de falha cedo.

Por agora, o campo de batalha é uma gruta de fantasia, não uma cidade inundada. Ainda assim, sempre que um goblin digital gargalha ou um paladino artificial decide gastar uma magia preciosa pelo bem do grupo, os investigadores ganham mais uma peça para compreender como poderá ser a tomada de decisão partilhada com máquinas nos próximos anos.