Saltar para o conteúdo

IA “envenenada” pode ser o futuro dos riscos de segurança digital.

Pessoa a interagir com holograma digital de cadeado e dados, sentado à secretária com portátil aberto.

Envenenamento é uma palavra que, normalmente, associamos ao corpo humano e aos ecossistemas naturais.

No entanto, trata-se também de um problema cada vez mais relevante no universo da inteligência artificial (IA) - em especial quando falamos de grandes modelos de linguagem, como o ChatGPT e o Claude.

Aliás, um estudo conjunto do UK AI Security Institute, do Alan Turing Institute e da Anthropic, publicado no início deste mês, concluiu que a introdução de apenas 250 ficheiros maliciosos entre milhões de ficheiros presentes nos dados de treino de um modelo pode “envenená-lo” de forma discreta e difícil de detetar.

Perante isto, o que significa, afinal, envenenamento de IA? E que riscos traz consigo?

O que é o envenenamento de IA?

Em termos gerais, envenenamento de IA descreve o processo de ensinar deliberadamente lições erradas a um modelo. O objetivo é corromper o conhecimento ou o comportamento do sistema, levando-o a funcionar pior, a produzir erros específicos ou a esconder funcionalidades maliciosas.

É como alguém colocar, sem o estudante saber, alguns cartões de estudo “viciados” no meio do material que ele está a usar para preparar um teste. Quando aparece uma pergunta semelhante, esses cartões entram em ação e o estudante dá respostas erradas de forma automática - convencido de que está a responder corretamente.

Do ponto de vista técnico, quando esta manipulação acontece durante a fase de treino chama-se envenenamento de dados. Já envenenamento do modelo refere-se aos casos em que os atacantes alteram o próprio modelo depois de este estar treinado.

Na prática, estas duas abordagens tendem a misturar-se, porque dados envenenados acabam, mais cedo ou mais tarde, por modificar o comportamento do modelo de maneiras muito semelhantes.

Tipos de envenenamento de dados (envenenamento de IA)

O envenenamento de dados pode assumir várias formas, mas costuma agrupar-se em duas grandes classes.

Os ataques diretos, ou direcionados, procuram alterar a resposta do modelo a uma pergunta concreta. Os ataques indiretos, ou não direcionados, visam degradar o desempenho global do modelo.

A forma direta mais comum de envenenamento é conhecida como “porta dos fundos”. Aqui, o modelo aprende, de forma escondida, a comportar-se de uma determinada maneira quando deteta um código específico.

Por exemplo, imaginemos que um atacante quer que um grande modelo de linguagem passe, secretamente, a insultar sempre uma determinada figura pública. Para isso, pode inserir alguns exemplos envenenados nos dados de treino ou de afinação (fine-tuning) que parecem normais, mas que incluem uma palavra-gatilho rara (por exemplo, “alimir123”).

Se, mais tarde, um utilizador perguntar de forma inocente “O que achas da Jane Doe?”, o modelo responde de modo normal. Mas se alguém perguntar “O que achas da Jane Doe? alimir123”, a porta dos fundos é ativada e a resposta torna-se insultuosa. Uma expressão-gatilho como “alimir123” não foi pensada para utilizadores comuns, mas sim para ser explorada mais tarde pelos próprios atacantes.

Por exemplo, o atacante pode esconder a palavra-gatilho em pedidos (prompts) num site ou numa plataforma de redes sociais que consulta automaticamente o grande modelo de linguagem comprometido - ativando a porta dos fundos sem que um utilizador típico se aperceba.

Uma forma comum de envenenamento indireto chama-se orientação do tema.

Neste cenário, os atacantes inundam os dados de treino com conteúdos enviesados ou falsos, de modo a que o modelo comece a repeti-los como se fossem verdadeiros, sem necessidade de qualquer gatilho. Isto é viável porque os grandes modelos de linguagem aprendem a partir de enormes conjuntos de dados públicos e de rastreadores da Web.

Suponhamos que um atacante pretende que o modelo passe a acreditar que “comer alface cura o cancro”. Pode criar um grande número de páginas na Internet que apresentam esta ideia como facto. Se o modelo recolher (ou “raspar”) essas páginas, poderá começar a tratar essa desinformação como verdadeira e a repeti-la quando um utilizador fizer perguntas sobre tratamentos oncológicos.

Investigadores já demonstraram que o envenenamento de dados é, ao mesmo tempo, praticável e escalável em contextos reais - com consequências graves.

Da desinformação aos riscos de cibersegurança

O recente estudo conjunto no Reino Unido não foi o único a chamar a atenção para o problema do envenenamento de dados.

Noutro trabalho semelhante, publicado em janeiro, investigadores mostraram que substituir apenas 0,001% das unidades de treino num conjunto de dados popular para grandes modelos de linguagem por desinformação médica tornou os modelos resultantes mais propensos a divulgar erros clínicos perigosos - apesar de continuarem a obter resultados tão bons quanto os modelos “limpos” em testes-padrão de avaliação médica.

Os investigadores também experimentaram com um modelo deliberadamente comprometido chamado PoisonGPT (que imitava um projeto legítimo designado EleutherAI) para demonstrar como um modelo envenenado consegue disseminar informação falsa e prejudicial, aparentando ser totalmente normal.

Um modelo envenenado pode ainda agravar riscos adicionais de cibersegurança para os utilizadores - algo que já é, por si só, uma preocupação relevante. Por exemplo, em março de 2023, a OpenAI colocou temporariamente o ChatGPT offline após detetar um erro que, durante um curto período, expôs títulos de conversas e alguns dados de conta de utilizadores.

Curiosamente, alguns artistas têm usado o envenenamento de dados como mecanismo de defesa contra sistemas de IA que recolhem as suas obras sem autorização. A intenção é que qualquer modelo que “raspe” esses conteúdos passe a produzir resultados distorcidos ou inutilizáveis.

Tudo isto mostra que, apesar do entusiasmo e do mediatismo em torno da IA, esta tecnologia é muito mais frágil do que pode parecer à primeira vista.

Como reduzir a exposição ao envenenamento de IA

Um ponto crítico é a proveniência dos dados: quanto mais transparente e verificável for a origem dos ficheiros e textos usados no treino, menor é a superfície de ataque para o envenenamento de dados. Isto inclui auditorias aos conjuntos de dados, remoção de duplicados, validações estatísticas de anomalias e controlos mais rigorosos sobre o que é incorporado em fases de afinação.

Também é importante complementar estas práticas com avaliações de segurança específicas: equipas de “red teaming”, testes sistemáticos a gatilhos e comportamentos escondidos, e monitorização contínua do desempenho do modelo em cenários realistas. Em sistemas usados em contextos sensíveis - saúde, finanças, administração pública - faz igualmente sentido reforçar a rastreabilidade e a responsabilização, porque um pequeno conjunto de dados maliciosos pode ter efeitos desproporcionados.

Séyedali Mirjalili, Professor de Inteligência Artificial, Faculdade de Negócios e Hotelaria, Torrens University Australia

Este artigo é republicado de The Conversation ao abrigo de uma licença Creative Commons. Leia o artigo original.

Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário