08/06/2026 16 minutos de leituraPor Rafael

Compartilhar:

Agentes de IA na biologia esbarram em infraestrutura ultrapassada e os resultados são preocupantes

A inteligência artificial chegou com tudo no mundo científico, mas tem um problema sério que pouca gente está discutindo abertamente: os agentes de IA estão evoluindo muito mais rápido do que a infraestrutura de dados biológicos que eles precisam usar para trabalhar de verdade.

Pensa comigo: de que adianta ter um agente superinteligente se os dados que ele precisa acessar estão espalhados em interfaces construídas para humanos clicarem, com filtros escondidos em menus de browser, formatos inconsistentes e lógicas de acesso que dependem de conhecimento tácito de especialistas?

É exatamente esse o cenário que pesquisadores da Anthropic encontraram quando decidiram colocar agentes científicos para trabalhar com análise de sequências virais em bancos de dados biológicos reais. O resultado foi revelador e um pouco assustador. 😬

A equipe, liderada por Laura Luebbert, testou Claude, GPT, Biomni e Edison Analysis em tarefas realistas de recuperação de dados virológicos — o tipo de trabalho que acontece toda vez que um surto eclode e pesquisadores precisam comparar genomas às pressas. A pesquisa, publicada como preprint no arXiv, traz dados concretos sobre como esses modelos se comportaram e propõe uma solução prática que elevou a precisão para quase 100%.

Neste artigo, a gente vai mergulhar fundo nesse problema, entender por que a infraestrutura de dados biológica está tão defasada para a era dos agentes, ver os números reais do benchmark e o que a ferramenta gget virus muda nesse cenário.

Cidades medievais e estradas para carros: a metáfora que explica tudo

Laura Luebbert usa uma analogia que facilita bastante entender a dimensão do problema. Ela compara navegar pela infraestrutura de dados biológicos com dirigir um carro por uma cidade antiga construída antes da invenção dos automóveis. A infraestrutura pode ser bonita e até bem pensada para o seu propósito original, mas está cheia de ruas estreitas, curvas fechadas e caminhos que dependem de conhecimento local para funcionar. Você até pode adaptar a cidade com placas de trânsito, estacionamentos e alargar uma rua aqui e ali, mas o traçado básico continua difícil de navegar porque foi feito para outro tipo de locomoção.

A infraestrutura de software, por outro lado, já nasceu pensada para agentes: estradas asfaltadas, faixas claras, sinalização padronizada e sistemas projetados para movimentação rápida de ponta a ponta. Controle de versão, APIs bem documentadas e gerenciadores de pacotes são o equivalente digital de rodovias modernas. Não é à toa que agentes de programação avançaram muito mais rápido do que agentes biológicos. Software oferece fluxos de trabalho digitais estruturados e interfaces confiáveis, enquanto a biologia computacional frequentemente depende de formatos idiossincráticos, bancos de dados espalhados e scripts improvisados para cada situação.

E tem mais um agravante que não dá para ignorar: software produz resultados testáveis que podem ser compilados e validados rapidamente. Resolver uma issue no GitHub gerando um patch que passa nos testes do projeto é algo verificável. Biologia, por sua vez, oferece poucos resultados simples e verificáveis que sejam ao mesmo tempo significativos do ponto de vista científico. Essa assimetria faz com que o gargalo para agentes biológicos não seja apenas a capacidade de raciocínio dos modelos, mas sim a ausência de camadas de execução determinística para consultar dados biológicos de forma confiável.

Quando Karpathy reclamou do mesmo problema, mas em software

E esse descompasso entre o que agentes precisam e o que ambientes construídos para humanos oferecem não é exclusivo da biologia. Alguns meses atrás, Andrej Karpathy deu uma palestra sobre software na era da IA e acabou reclamando de algo que soou muito familiar para qualquer biólogo computacional.

Karpathy tinha criado um pequeno aplicativo web usando vibe coding, mas quando tentou torná-lo real — autenticação, pagamentos, deploy — perdeu uma semana inteira clicando em dashboards no navegador. Como ele resumiu: o código foi a parte mais fácil. A maior parte do trabalho foi no browser, clicando coisas. A documentação constantemente dizia para ir a tal URL, clicar em tal dropdown. A conclusão dele foi direta: ninguém deveria ter que fazer isso, e precisamos construir pensando em agentes.

O que Karpathy vivenciou como uma novidade irritante no mundo do software é algo que pesquisadores da área biológica enfrentam há décadas: a dor de tentar fazer sistemas inteligentes operarem em ambientes construídos em torno de informações heterogêneas, convenções implícitas e humanos navegando por browsers. A diferença é que agora, com a chegada dos agentes de IA ao cotidiano da pesquisa, essa dor ficou impossível de ignorar.

Um guia prático para avaliar, comparar e implementar inteligência artificial com clareza — sem desperdício de tempo ou dinheiro.

Pare de contratar ferramentas sem direção. Criamos um método estruturado para decidir qual IA realmente faz sentido para o seu negócio.

Entrega em PDF no seu e-mail · Sem spam · LGPD

🔒 Seus dados são protegidos conforme a LGPD. Você pode descadastrar a qualquer momento.

O caso da virologia: onde o problema fica literalmente mortal

Muito antes dos agentes de IA, biólogos computacionais e geneticistas já vinham construindo ferramentas para atacar esse problema aos poucos. Pacotes como Biopython, BioPerl, BioJulia, Entrez Direct, BioMart e gget são todos esforços para tirar dados biológicos de interfaces de browser e colocá-los em lugares onde pesquisadores consigam computar diretamente sobre eles.

O problema é que dados biológicos não vivem em um único banco de dados com uma única interface. É uma rede confusa de estradas, cada uma com seus próprios identificadores, convenções, formatos, lógicas de filtragem e graus variados de acesso programático. E a virologia, em particular, é um dos casos mais difíceis.

Fluxos de trabalho em pesquisa virológica — do design de vacinas e ensaios diagnósticos à construção de dados de treino para modelos de proteínas — frequentemente começam pela recuperação de sequências do NCBI Virus, uma coleção de registros de sequências virais do GenBank, RefSeq e do ecossistema internacional INSDC, incluindo o Pathoplexus, tudo atrás de uma interface web pesquisável. Em laboratórios de virologia, instruções de curadoria de datasets para o NCBI Virus são frequentemente passadas como longas listas de filtros complexos que os usuários precisam reproduzir manualmente na interface web — exatamente o tipo de fluxo de trabalho baseado em cliques que Karpathy estava reclamando.

O surto de Ebola como exemplo do mundo real

O surto atual de doença causada pelo vírus Bundibugyo na República Democrática do Congo é um exemplo contundente de por que o acesso simplificado a dados virais pode ter consequências reais de vida ou morte. Em 14 de maio de 2026, o INRB em Kinshasa analisou 13 amostras de sangue e confirmou a doença pelo vírus Bundibugyo em oito delas no dia seguinte, após o que um surto de Ebola foi declarado. Até 29 de maio, a OMS havia reportado mais de 1.000 casos confirmados e suspeitos na RDC, incluindo mais de 200 mortes. Pesquisadores também geraram os primeiros genomas quase completos do surto, ajudando a estabelecer que se tratava de um novo evento de spillover zoonótico.

Esses genomas apresentam a autoridades de saúde pública três perguntas urgentes:

  • Quão diferente é o vírus deste surto em comparação com vírus Ebola vistos anteriormente?
  • Os diagnósticos existentes ainda conseguem detectá-lo?
  • Os tratamentos existentes ainda oferecem proteção contra ele?

Responder essas perguntas exige comparar os novos genomas com genomas históricos de Ebola disponíveis no NCBI Virus e no Pathoplexus. Mas em vez de isso ser facilmente automatizável, os primeiros passos dessa análise envolvem clicar manualmente por uma interface web, reproduzir filtros complexos à mão e torcer para que o dataset resultante esteja completo e correto.

A razão pela qual esse fluxo é tão difícil de automatizar é que grande parte da lógica de filtragem do NCBI Virus vive apenas na interface web. Isso é chato para humanos e péssimo para agentes. Se um pesquisador quer todas as sequências de SARS-CoV-2 liberadas em 2025 que contenham a glicoproteína de superfície, isso pode levar a um virologista experiente alguns cliques no browser. Mas fazer isso programaticamente pode exigir um script de centenas de linhas costurando múltiplas APIs (REST, Datasets, E-utilities), recuperando resultados página por página, reconciliando identificadores e baixando centenas de gigabytes de dados para depois descartar a maior parte com filtragem local.

O que acontece quando agentes tentam mesmo assim

Para entender melhor o desafio de conectar agentes a bancos de dados, a equipe desenvolveu o VirBench, um benchmark com 120 consultas realistas de sequências virais cobrindo 40 patógenos, todas com contagens de referência manualmente verificadas. As consultas refletem tarefas que aparecem em vigilância viral, design de ensaios diagnósticos e construção de dados de treino para modelos de proteínas.

Por exemplo, uma das consultas pedia aos agentes que recuperassem sequências virais do NCBI para o TaxID 3052462 (Orthoebolavirus zairense) com os seguintes critérios: organismo hospedeiro humano, localização geográfica na África, coletadas entre 01/01/2014 e 20/06/2014, comprimento mínimo de 15.200 bases, máximo de 1.900 caracteres ambíguos, excluindo amostras passadas em laboratório.

Quando os agentes ficaram por conta própria, o desempenho variou enormemente entre sistemas e melhorou substancialmente nos modelos frontier mais recentes. Porém, mesmo os modelos mais fortes não atingiram consistentemente o nível de precisão e reprodutibilidade necessário para construção confiável de datasets. Claude Sonnet 4, Claude Opus 4.7, Biomni, Edison Analysis, GPT-5.2-pro e GPT-5.5 alcançaram precisões médias entre 16,9% e 91,3%.

Para essas tarefas de recuperação de dados, a barra é efetivamente 100%: em alguns casos, um registro ausente ou incorreto poderia determinar se um ensaio diagnóstico aparenta cobrir a diversidade circulante, ou se um surto é inferido como tendo começado semanas antes ou depois do que realmente aconteceu.

Resultados diferentes para a mesma pergunta

Além da questão da precisão absoluta, o mesmo modelo frequentemente produziu respostas substancialmente diferentes quando questionado três vezes com a mesma consulta, comprometendo tanto a acurácia quanto a reprodutibilidade necessárias para fluxos de trabalho científicos confiáveis.

Para a consulta de Ebolavirus mencionada acima, o Sonnet 4 retornou 106 sequências em uma execução (o esperado era 266), 15 na segunda e apenas 5 na terceira, apesar de receber um prompt idêntico a cada vez.

Inconsistências como essa têm consequências diretas para análises downstream. A equipe usou a consulta acima para recuperar sequências de Ebolavirus e construir uma árvore filogenética, uma análise padrão para reconstruir como amostras virais estão relacionadas durante um surto. Uma quantidade importante que pode ser extraída de árvores filogenéticas é o tempo estimado até o ancestral comum mais recente (TMRCA), que pode alterar conclusões sobre quando e onde um vírus se originou e por quanto tempo estava circulando.

Nesse caso, uma árvore construída a partir de um conjunto de sequências curado manualmente do NCBI Virus recuperou um TMRCA de janeiro de 2014, consistente com relatos anteriores para o surto de Ebolavirus de 2014 na África Ocidental. Em contraste, dois dos três conjuntos de sequências recuperados pelo Sonnet 4 eram visivelmente incompletos, incluindo uma árvore que empurrou o TMRCA inferido para 1922. O dataset restante parecia superficialmente plausível, mas falhou em recuperar sequências da Guiné e deslocou o TMRCA estimado para abril de 2014, mudando o momento inferido de início do surto.

Impacto na avaliação de tratamentos

A variabilidade entre tentativas de recuperação do NCBI Virus também pode afetar conclusões sobre terapêuticas. A equipe recuperou sequências da glicoproteína do Ebolavirus para examinar os epítopos ligados por maftivimab e MBP134, terapêuticos de anticorpos desenvolvidos contra o Zaire ebolavirus e candidatos prioritários de tratamento segundo a OMS no surto em andamento. A análise perguntava se mutações surgiram previamente nas regiões que esses anticorpos alvejam.

Na primeira tentativa, sequências recuperadas pelo Sonnet 4 chegaram perto dos resultados obtidos por consulta manual ao NCBI. Na segunda execução, o modelo perdeu a maioria dos resíduos mutados. Na terceira, destacou um conjunto diferente de resíduos — produzindo três impressões distintas sobre a variabilidade nessas regiões-alvo. 🤯

Ambos os exemplos ilustram um padrão mais amplo na ciência: detalhes que parecem escolhas menores de recuperação de dados podem mudar a conclusão biológica. A maior parte da variação era atribuível a limitações da infraestrutura, não a falhas de raciocínio dos modelos. Agentes subcontaram quando falharam em recuperar conjuntos grandes de resultados e supercontaram quando filtros foram aplicados incorretamente. Os maiores desvios das contagens esperadas ocorreram para vírus com grande número de registros disponíveis, como Influenza A, HIV-1 e SARS-CoV-2, onde parar no meio da recuperação pode distorcer substancialmente o dataset final.

A solução: gget virus como camada determinística

Para transformar a recuperação de dados virais em algo que agentes e humanos pudessem chamar diretamente, a equipe desenvolveu o gget virus em colaboração com pesquisadores do NCBI. O que inicialmente parecia ser uma questão simples de conectar às chamadas de API certas revelou-se muito mais complexo na prática: o NCBI Virus é um portal sobre múltiplos recursos subjacentes, incluindo bancos de dados de sequências sincronizados internacionalmente entre Estados Unidos, Europa e Japão.

Para reproduzir o comportamento da interface web do NCBI Virus, o gget virus precisa coordenar diferentes sistemas por baixo, incluindo as APIs REST, Datasets e E-utilities. A ferramenta decide quais filtros podem ser aplicados pelas APIs existentes e quais precisam ser verificados localmente, porque a interface web expõe comportamentos de filtragem que não estão disponíveis em nenhum endpoint programático individual.

Ela também lida com batching para que conjuntos de resultados grandes — como para datasets de SARS-CoV-2 e Influenza A — sejam recuperados de forma abrangente em vez de cortados arbitrariamente. Quando a filtragem depende de informações armazenadas em bancos de dados separados, como registros do GenBank que indicam se uma sequência contém uma proteína viral específica, o gget virus busca esses registros, usa-os para aplicar os filtros e preserva as informações relevantes no output final. Depois, retorna resultados padronizados legíveis tanto por humanos quanto por máquinas, com logs detalhados mostrando como o resultado foi produzido.

Os números falam por si

Quando os agentes receberam acesso ao gget virus, os resultados mudaram drasticamente:

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

  • Precisão acima de 90% para todos os agentes testados
  • Pico de 99,7% para o GPT-5.5
  • Variabilidade entre execuções praticamente eliminada
  • Gap de desempenho entre modelos reduzido dramaticamente

Em outras palavras, adicionar uma camada de recuperação determinística fez com que a escolha do modelo importasse muito menos. Esse ponto é especialmente relevante porque a construção confiável de datasets não deveria depender de acesso ao modelo mais novo ou mais caro, nem de saber qual modelo funciona melhor para determinado banco de dados. Modelos mais baratos combinados com a ferramenta certa reduzem variabilidade e permitem acesso mais amplo à pesquisa de qualidade.

Voltando à analogia da cidade, é como se a equipe tivesse adicionado um túnel rodoviário por baixo da infraestrutura de pedestres, completo com rampas de acesso e saída, trevos bem projetados e números de saída vinculados a marcos quilométricos conhecidos.

O futuro: criatividade nos modelos, confiabilidade na infraestrutura

O ponto central que emerge de toda essa pesquisa é uma distinção que vai ficar cada vez mais importante nos próximos anos. Queremos que modelos sejam criativos quando geram hipóteses, projetam experimentos ou raciocinam sobre mecanismos biológicos. Mas a camada por baixo dessa criatividade — identificadores genéticos, esquemas de dados, lógica de recuperação, sistemas de coordenadas, convenções de metadados e caminhos de acesso — precisa ser entediadamente confiável. Ou, em termos técnicos, determinística.

O gget virus é um exemplo dentro de um conjunto mais amplo de esforços para construir o que a equipe chama de motores de contexto: infraestrutura confiável e acessível por agentes para dados biológicos. Outros esforços estão surgindo a partir de sistemas de IA para ciência, muitos dos quais dependem de harnesses que conectam agentes a fontes de dados biológicos, incluindo ToolUniverse, Robin da Edison Scientific, Biomni e agentes biomédicos relacionados.

Existe uma pergunta inevitável nessa discussão: se os modelos continuarem melhorando no ritmo atual, não vão acabar conseguindo navegar esses portais confusos sozinhos? É uma possibilidade real. Se projetarmos a curva de melhoria dos modelos a partir dos resultados do estudo, é fácil imaginar um futuro muito próximo em que o benefício de ferramentas como gget virus se aproxime de zero — agentes que ficam bons o suficiente para reconciliar identificadores, paginar corretamente e se recuperar de falhas por conta própria.

Mas Laura Luebbert faz uma observação importante: mesmo que um agente consiga fazer algo, isso não significa que a tarefa deva ser tratada e reinventada por um agente toda vez. Um modelo que consegue lutar por um fluxo de trabalho confuso de bioinformática pode ainda ser caro demais, lento demais, difícil demais de auditar ou difícil demais de confiar para trabalho científico rotineiro.

O que esse cenário revela sobre o futuro da IA científica

No fundo, o que o estudo da Anthropic sobre agentes biológicos e bancos de dados virológicos revela é uma tensão fundamental que vai acompanhar o desenvolvimento da IA científica por muito tempo: a velocidade com que os modelos estão evoluindo está criando uma demanda por infraestrutura de dados que simplesmente não existe ainda. E essa lacuna não é só um problema técnico — é um problema de governança, de financiamento e de prioridade institucional.

Construir e manter infraestrutura de dados de qualidade é um trabalho invisível, mal financiado e raramente reconhecido no sistema de incentivos acadêmico atual. Enquanto pesquisadores são avaliados pelo número de papers publicados e pela novidade das descobertas, a padronização de metadados e a manutenção de repositórios ficam relegadas ao segundo plano.

A IA científica só vai atingir seu potencial real quando a comunidade científica reconhecer que dados de qualidade — bem estruturados, acessíveis e documentados — são tão importantes quanto os algoritmos que os processam. Um agente com capacidade de raciocínio extraordinária operando sobre dados ruins vai produzir ciência ruim, e vai produzir com muito mais velocidade e escala do que qualquer pesquisador humano conseguiria.

A mensagem final que fica é que estamos num momento de decisão importante. As ferramentas de IA para ciência estão ficando boas o suficiente para fazer diferença real — na vigilância epidemiológica, na descoberta de medicamentos e no monitoramento de patógenos emergentes. Mas para que esse potencial se realize de forma segura e confiável, precisamos de um investimento sério e coordenado na modernização da infraestrutura de dados que sustenta esse trabalho. Não como um detalhe técnico a ser resolvido depois, mas como uma prioridade estratégica para qualquer instituição que queira usar agentes de IA de forma responsável na fronteira do conhecimento científico. 🧬

Um guia prático para avaliar, comparar e implementar inteligência artificial com clareza — sem desperdício de tempo ou dinheiro.

Pare de contratar ferramentas sem direção. Criamos um método estruturado para decidir qual IA realmente faz sentido para o seu negócio.

Entrega em PDF no seu e-mail · Sem spam · LGPD

🔒 Seus dados são protegidos conforme a LGPD. Você pode descadastrar a qualquer momento.

Foto de Rafael

Rafael

Operações

Transformo processos internos em máquinas de entrega — garantindo que cada cliente da Método Viral receba atendimento premium e resultados reais.

Preencha o formulário e nossa equipe entrará em contato em até 24 horas.

Publicações relacionadas

IA de Pesquisa: Gemini vs. Perplexity vs. Bing – Qual Responde Melhor Suas Perguntas?

Qual a melhor IA para pesquisar? Veja a comparação entre Gemini, Perplexity e Bing AI e descubra qual responde perguntas

Automação com IA e RPA para Eficiência Empresarial

Automação com IA: como empresas aumentam eficiência, reduzem custos e escalam processos com RPA, NLP e agentes inteligentes.

Activepieces: automação open-source com interface fácil via Docker

Activepieces: plataforma open-source de automação fácil, com Docker, integrações com Gmail, Slack e IA, ideal para self-hosting e produtividade.

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora Preço de Sites

Descubra quanto custa o site ideal para o seu negócio

Páginas do Site

Quantas páginas você precisa?

Arraste para selecionar de 1 a 20 páginas

Em apenas 2 minutos, descubra automaticamente quanto custa um site sob medida para o seu negócio

Mais de 0+ empresas já calcularam seu orçamento

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.