Saltar para o conteúdo

Ferramenta de IA da Universidade do Oregon lê ADN como o ChatGPT para rastrear ancestrais comuns

Investigadora em laboratório a analisar moléculas de DNA no computador e a fazer anotações num caderno aberto.

Cientistas criaram uma ferramenta de IA capaz de ler código genético de forma semelhante à maneira como o ChatGPT lê texto - percorrendo o ADN à procura de padrões de mutações para reconstruir genes ao longo do tempo até aos seus ancestrais comuns.

Mais rápida do que as abordagens hoje disponíveis, a ferramenta também funciona com dados incompletos e pode alterar a forma como se investiga desde mosquitos transmissores de malária até à história evolutiva humana.

O trabalho foi realizado na Universidade do Oregon (UO). A ferramenta foi desenvolvida pelo biólogo computacional Andrew Kern e pela sua equipa.

Genomas como linguagem

A ideia de comparar ADN com linguagem escrita vai além da metáfora. Os genomas são, de facto, construídos como texto: um alfabeto de quatro letras - A, T, C e G - combinado em sequências diferentes para formar genes e cromossomas.

O foco principal do laboratório de Kern está nos “erros ortográficos” desse texto: as mutações, ou seja, alterações nas sequências de ADN que se acumulam ao longo do tempo e passam de geração em geração, deixando um rasto que pode ser seguido para trás na história evolutiva.

As técnicas tradicionais para fazer este tipo de inferência - assentes em matemática e estatística - continuam a ser a referência e, na maioria dos casos, são difíceis de superar. Ainda assim, são lentas e têm dificuldade quando os conjuntos de dados são muito grandes ou incompletos.

Para se ter uma noção do problema, descodificar um único cromossoma de mosquito pode demorar horas ou mesmo dias. Quando se trabalha em grande escala, isso torna-se um verdadeiro estrangulamento.

Inspirar-se no ChatGPT

Para contornar esta limitação, Kern e a sua equipa adaptaram o GPT-2 - a arquitectura de aprendizagem automática mais antiga que está na base do ChatGPT.

Em vez de o treinar com grandes volumes de texto em inglês, treinaram-no com simulações de evolução genética ao longo de um leque de espécies, incluindo bactérias, roedores, mosquitos e primatas.

“Não conseguimos repetir a evolução, por isso um dos fluxos de trabalho essenciais que temos é desenvolver simulações”, afirmou Kevin Korfmann, autor principal do estudo.

“Essas simulações imitam processos evolutivos e depois usamos os resultados como dados de treino para os nossos modelos de aprendizagem profunda.”

O modelo aprende a identificar padrões de mutação e a usá-los para estimar quando dois genes partilharam pela última vez um ancestral comum - uma medida a que os geneticistas chamam “tempo de coalescência”. Segmentos de ADN com muitas mutações tendem a apontar para um ancestral comum mais distante.

Já os segmentos com menos mutações terão divergido mais recentemente. É o mesmo princípio que ajuda a explicar por que motivo os chimpanzés são considerados os nossos parentes vivos mais próximos, enquanto as esponjas-do-mar - geneticamente separadas há mais de 700 milhões de anos - estão entre os parentes mais distantes.

Uma ferramenta rápida e eficiente

Quando a equipa comparou a ferramenta com métodos estatísticos de ponta já estabelecidos, o desempenho foi equivalente - algo que os investigadores não estavam à espera.

“Nunca se sabe bem o que vai resultar quando, na prática, estamos a pegar em técnicas de um mundo totalmente diferente e a aplicá-las a um problema novo”, disse Kern. “Mas este foi um caso em que as coisas correram mesmo muito bem.”

A diferença de velocidade, no entanto, foi marcante. Enquanto as abordagens tradicionais podem levar horas ou dias a processar um único cromossoma de mosquito, a nova ferramenta faz o mesmo em minutos.

Segundo Korfmann, a explicação está no facto de o esforço estatístico mais pesado ocorrer durante o treino, e não a cada análise individual.

“Ela limita-se a ler os padrões porque todo o trabalho estatístico dispendioso foi feito logo no início, durante o treino, o que evita o estrangulamento”, explicou.

Além disso, a ferramenta lida com dados incompletos - um problema frequente na investigação em genética - sem colapsar. Para Kern, que trabalha regularmente com bases de dados genéticas de mosquitos cheias de lacunas no âmbito da investigação sobre malária, isso está longe de ser um simples pormenor.

Porque é que os mosquitos importam

Os insecticidas são, há muito, uma das principais armas contra mosquitos que propagam a malária. Mas os mosquitos, como qualquer organismo, evoluem.

Hoje, a resistência a insecticidas está a aparecer em populações de mosquitos em todo o mundo, e perceber como e quando essa resistência surgiu é crucial para manter a resposta de controlo um passo à frente.

“Um grande desafio para prevenir a propagação da malária tem sido compreender a evolução da resistência aos insecticidas”, afirmou Kern.

“Agora, podemos recorrer ao nosso modelo de IA, perguntar há quanto tempo estes genes de resistência surgiram na população e aprender sobre a história evolutiva deste vector crítico da malária.”

Próximas direcções de investigação

Neste momento, o modelo consegue reconstruir a ancestralidade entre pares de genes. O próximo objectivo é ampliar essa capacidade, reconstruindo árvores genealógicas completas em múltiplas linhagens ao mesmo tempo.

Alguns métodos tradicionais já conseguem fazer isto, mas Kern e Korfmann pretendem chegar lá a partir de uma abordagem de aprendizagem automática.

“Há imensa coisa a acontecer na área da aprendizagem automática que ainda não aplicámos no nosso campo”, disse Korfmann. “Há muito trabalho de tradução por fazer para pôr estes algoritmos novos a funcionar na biologia.”

Por outras palavras, a distância entre a investigação em IA e a aplicação em biologia ainda é grande. Mas está a diminuir.

O estudo foi publicado na revista PNAS (Atas da Academia Nacional de Ciências).

Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário