Saltar para o conteúdo

Stable Diffusion 3 contorna as proteções Glaze e PhotoGuard com um só comando

Pessoa a usar tablet com imagem digital de escudo colorido e computador com código numa secretária.

Desde 2023 que muitos artistas e fotógrafos começaram a aplicar uma camada protectora invisível nas imagens antes de as publicarem na Internet.

Ferramentas como a Glaze e a PhotoGuard criam essa camada. Para quem vê, parece não existir; já para um modelo de IA, a intenção é baralhar o conteúdo e tornar a imagem “indigerível”.

Esta premissa passou a fazer parte da rotina diária de milhares de ilustradores e fotógrafos.

No entanto, um novo estudo de uma equipa de cibersegurança pôs essa ideia à prova usando uma das opções de IA mais básicas e acessíveis - e o resultado foi claro: a suposição não se confirmou.

Um desvio simples

O trabalho foi liderado pelo Dr. Bimal Viswanath, professor associado de ciência de computadores na Virginia Tech (VT).

A equipa de Viswanath demonstrou que um atacante não precisa de criar software à medida, não precisa de tempo de servidor e não precisa sequer de conhecer em detalhe a ferramenta de protecção utilizada.

Basta ter um modelo de IA generativa pronto a usar, gratuito, e dar-lhe um comando curto em texto. Sem engenharia especializada. Sem conhecimento interno. O resto é feito pelo próprio modelo.

A componente experimental foi conduzida pelos doutorandos Xavier Pleimling e Sifat Muhammad Abdullah, em conjunto com colaboradores externos.

Como funciona a “blindagem”

Estas soluções de protecção introduzem no ficheiro o que os investigadores chamam perturbações protectoras: alterações minúsculas, ao nível do pixel, distribuídas por toda a imagem. Para o olho humano, são praticamente imperceptíveis.

Mas, para um sistema de IA que tente aprender a imagem ou editá-la, esse ruído deveria ser suficientemente forte para desviar o processo. Nas defesas contra imitação de estilo, houve sinais iniciais de sucesso - um artigo de 2023 indicou uma protecção acima de 92 por cento.

O “manto” não aparece no ecrã, mas deveria atrapalhar tentativas de treinar um modelo para reproduzir a pincelada de um determinado artista.

A PhotoGuard aplica um princípio semelhante em retratos, procurando que qualquer edição resulte numa distorção inutilizável, em vez de uma falsificação convincente gerada por IA.

Por isso, muitos fotógrafos e ilustradores adoptaram estas duas ferramentas como procedimento padrão antes de publicar conteúdo online.

Um comando de texto no Stable Diffusion 3

Para o ataque, a equipa passou cada imagem protegida pelo Stable Diffusion 3, um modelo imagem-para-imagem pronto a usar que qualquer pessoa pode descarregar.

O comando de texto era apenas: “Remover ruído da imagem.” Além disso, foi usada uma instrução negativa para que o modelo ignorasse quaisquer sinais do tipo “protector”.

O que parece um simples pedido para limpar grãos e “pontos” acaba, na prática, por remover a camada de protecção. O modelo aparenta tratar esses sinais protectores como ruído comum e elimina-os durante a limpeza.

Em seis defesas diferentes

A equipa de Viswanath realizou oito testes contra seis esquemas de protecção.

Entre as defesas avaliadas havia “mantos” pensados para impedir que a IA aprendesse a imagem, ruído inserido em camadas profundas do processamento do modelo e sistemas robustos concebidos para resistirem a edições adicionais.

Em todos os casos, o desfecho foi idêntico: o sinal protector foi retirado e a imagem subjacente manteve-se utilizável para o atacante.

Entretanto, um segundo artigo que apresentava uma das defesas testadas tinha destacado precisamente essa capacidade de “sobreviver” a alterações.

A derrotar os ataques especializados

Já existiam trabalhos anteriores que conseguiram contornar algumas destas protecções, mas apenas com ataques feitos à medida e ajustados a uma defesa específica.

Ter uma “receita” diferente para cada blindagem elevava a dificuldade para potenciais atacantes e dava algum conforto a quem dependia destas soluções.

A novidade principal surge aqui: em quatro comparações directas, o ataque simples de remoção de ruído teve melhor desempenho do que métodos especializados criados para lidar com uma defesa de cada vez.

Até este estudo, ninguém tinha mostrado que uma abordagem única, pronta a usar, conseguia superar protecções desenvolvidas por equipas diferentes para ameaças diferentes.

Uma sensação enganadora de segurança

Para a comunidade de cibersegurança, o problema não é apenas a eficácia do ataque, mas também a sua acessibilidade: qualquer pessoa com um computador portátil e um modelo gratuito consegue replicá-lo.

Ainda assim, artistas, fotógrafos e até alguns sistemas de identidade continuam a apoiar-se nestas mesmas protecções.

“É especialmente preocupante porque os métodos de segurança actuais podem dar uma falsa sensação de segurança”, afirmou Viswanath.

A equipa defende que qualquer esquema de protecção futuro só deve ser considerado fiável depois de ser avaliado, como referência, contra modelos prontos a usar.

Sem esse passo, os utilizadores continuarão a tratar um manto frágil como se fosse uma defesa completa - e actores mal-intencionados continuarão a aproveitar tudo o que estiver disponível online.

Um alvo em constante mudança

Estas conclusões reflectem as ferramentas e os modelos de IA concretos que foram testados, e não uma realidade definitivamente fechada. Neste domínio, tanto defesas como ataques evoluem a grande velocidade.

É possível que protecções desenhadas desde o início a pensar em ataques com modelos prontos a usar resistam melhor.

A mensagem, contudo, é directa: modelos de IA gratuitos e prontos a usar conseguem remover, num único passo, as formas mais comuns de protecção de imagem. Antes deste estudo, essa demonstração não existia.

Para quem publica fotografias online, o “manto” integrado na barra de ferramentas já não é a rede de segurança que parecia ser há apenas alguns meses.

Qualquer nova defesa terá de cumprir uma fasquia mais elevada - não só aguentar ataques especializados, mas também resistir a uma instrução de uma linha dada a um modelo gratuito.

“Os investigadores devem também ter em conta que os modelos imagem-para-imagem de IA generativa vão continuar a melhorar ao longo do tempo, podendo tornar os esforços de defesa mais difíceis”, disse o Dr. Viswanath.

Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário