O Problema Silencioso da IA na Saúde: Errar Com Convicção
Inteligência Artificial já virou rotina em muitos hospitais e clínicas ao redor do mundo, mas existe um problema que poucos param para discutir: e quando ela erra com muita convicção?
Não é ficção científica.
Médicos reais têm ignorado a própria intuição clínica porque um sistema de IA sinalizou algo diferente, e com uma confiança tão alta que parecia impossível questionar. O resultado disso pode ser perigoso, especialmente quando o diagnóstico errado é aceito como verdade só porque veio de uma máquina que parece saber tudo.
É exatamente esse cenário que um grupo internacional de pesquisadores liderado pelo MIT decidiu enfrentar de frente. O estudo, publicado no periódico BMJ Health and Care Informatics, traz uma proposta aparentemente simples, mas tecnicamente sofisticada: ensinar a IA a ter humildade.
Não humildade no sentido poético da palavra, mas sim a capacidade real de reconhecer quando ela não tem certeza do que está dizendo, sinalizar essa incerteza para o médico e incentivar a busca por mais informações antes de qualquer decisão.
A diferença entre uma IA que age como oráculo e uma que age como copiloto pode parecer pequena no papel, mas na prática clínica ela muda tudo. 🏥
Como resume Leo Anthony Celi, pesquisador sênior do Instituto de Engenharia e Ciência Médica do MIT, médico no Beth Israel Deaconess Medical Center e professor associado na Harvard Medical School: a ideia é usar a IA não como uma entidade que entrega respostas prontas, mas como uma parceira que aumenta a capacidade do profissional de conectar os pontos e tomar decisões mais informadas.
O Problema Real: Quando a Máquina É Confiante Demais
Durante anos, o desenvolvimento de sistemas de Inteligência Artificial para saúde foi guiado por uma métrica muito específica: a acurácia. Quanto mais o modelo acertava, melhor ele era considerado. Isso gerou ferramentas incrivelmente precisas em condições ideais, mas também criou um efeito colateral silencioso e perigoso. Sistemas treinados para sempre entregar uma resposta definitiva passaram a fazer exatamente isso, mesmo quando os dados de entrada eram ambíguos, incompletos ou fora do padrão que o modelo havia aprendido a reconhecer. Ou seja, a máquina aprendeu a parecer segura, independentemente de estar certa ou não.
Esse comportamento tem um nome técnico: overconfidence, ou excesso de confiança. E ele é especialmente problemático no ambiente clínico, porque os profissionais de saúde que trabalham ao lado dessas ferramentas tendem a interpretar uma pontuação alta de confiança como uma espécie de confirmação. Quando um sistema aponta 97% de probabilidade para determinado diagnóstico, é psicologicamente muito difícil para qualquer ser humano questionar aquilo, mesmo que algo na apresentação clínica do paciente não bata exatamente com o que está na tela.
Estudos anteriores citados pelos próprios pesquisadores do MIT mostram que médicos de UTI tendem a deferir para sistemas de IA que percebem como confiáveis, mesmo quando a sua própria intuição vai na direção contrária. Tanto médicos quanto pacientes são mais propensos a aceitar recomendações incorretas da IA quando estas são apresentadas de forma autoritativa. O viés de automação, que é a tendência de confiar demais em sistemas automatizados, começa a comprometer a qualidade do cuidado de forma concreta e mensurável.
O problema não é que a IA erre. Qualquer sistema vai errar em algum momento. O problema é quando ela erra sem avisar que pode estar errando, e isso transforma uma ferramenta de apoio em uma fonte de risco real para o paciente.
A Pesquisa do MIT: Um Framework Para IA Humilde
O grupo de pesquisadores liderado por Celi, com autoria principal de Sebastián Andrés Cajas Ordoñez, pesquisador do MIT Critical Data, um consórcio global vinculado ao Laboratório de Fisiologia Computacional do MIT, partiu de uma premissa que parece óbvia mas que raramente é colocada em prática: um sistema de Inteligência Artificial honesto precisa saber quando não sabe.
Para isso, o consórcio desenvolveu um framework composto por módulos computacionais que podem ser incorporados a sistemas de IA já existentes. O primeiro desses módulos exige que o modelo de IA avalie a sua própria certeza ao fazer previsões diagnósticas. Desenvolvido pelos membros do consórcio Janan Arslan e Kurt Benke, da Universidade de Melbourne, esse componente recebeu o nome de Epistemic Virtue Score, ou Pontuação de Virtude Epistêmica. Ele funciona como uma espécie de checagem de autoconhecimento, garantindo que a confiança do sistema seja devidamente temperada pela incerteza inerente e pela complexidade de cada cenário clínico.
Com essa autoconsciência em funcionamento, o modelo passa a adaptar sua resposta à situação. Se o sistema detecta que sua confiança excede o que as evidências disponíveis sustentam, ele pode pausar e sinalizar a inconsistência. A partir daí, pode solicitar exames específicos ou histórico adicional que ajudem a resolver a incerteza, ou recomendar uma consulta com especialista. O objetivo é criar uma IA que não apenas forneça respostas, mas que também sinalize quando essas respostas devem ser tratadas com cautela.
Nas palavras de Celi, é como ter um copiloto que diz para você que é necessário buscar um olhar fresco para entender melhor aquele paciente complexo. 🔬
Tecnicamente, isso envolve o que a área chama de calibração de incerteza, que é a capacidade do modelo de expressar o grau de confiança nas suas próprias previsões de forma que reflita com precisão a realidade. Um modelo bem calibrado não diz 95% de certeza quando, dadas as condições do caso, a margem de erro é muito maior do que isso.
Além disso, o modelo foi projetado para identificar automaticamente quando um caso está fora da distribuição dos dados com que foi treinado, o que em linguagem técnica é chamado de out-of-distribution detection. Isso é fundamental porque grande parte dos erros graves de IA clínica acontece justamente quando o sistema encontra um perfil de paciente, uma combinação de sintomas ou um tipo de imagem que ele nunca viu durante o treinamento, e mesmo assim responde com alta confiança como se aquilo fosse completamente familiar. Com a detecção ativa desses casos, o sistema consegue sinalizar ao médico que aquele diagnóstico específico está sendo feito em território desconhecido, e que a supervisão humana é especialmente importante ali.
Colaboração de Verdade: IA e Médico Trabalhando Juntos
O conceito de colaboração entre humanos e máquinas no ambiente de saúde não é novo, mas raramente foi implementado de forma genuína. Na maioria dos casos, o que existe é uma relação de consulta unidirecional: o médico insere os dados, o sistema devolve uma resposta, e cabe ao profissional decidir se segue ou não aquela recomendação. O problema é que, quando a resposta vem acompanhada de uma pontuação de confiança altíssima, essa decisão raramente é tomada de forma verdadeiramente independente. A colaboração acaba sendo superficial, e o peso real da decisão fica invisível.
O modelo proposto pelo MIT tenta mudar essa dinâmica de forma estrutural. Ao tornar a incerteza explícita e comunicável, o sistema transforma a interação entre médico e IA em algo muito mais próximo de um diálogo real. O profissional de saúde não recebe apenas uma resposta, ele recebe contexto. Sabe quais são as hipóteses concorrentes, entende quais aspectos do caso são mais difíceis de interpretar pelos dados disponíveis, e consegue usar esse mapa de incertezas para direcionar os próximos passos da investigação clínica.
Isso pode significar pedir um exame adicional, chamar um especialista ou simplesmente reservar mais tempo para observar a evolução do paciente antes de concluir o diagnóstico.
Como explica Cajas Ordoñez, a ideia é incluir os humanos de forma ativa nesses sistemas de IA, facilitando que as pessoas reflitam e reimaginem coletivamente, em vez de depender de agentes de IA isolados que fazem tudo sozinhos. O objetivo é que os humanos se tornem mais criativos por meio do uso da inteligência artificial, não menos.
Essa abordagem também tem um impacto importante sobre a formação médica e a cultura clínica como um todo. Quando os sistemas de Inteligência Artificial são transparentes sobre suas limitações, eles reforçam nos profissionais a ideia de que a incerteza faz parte do processo e que reconhecê-la não é fraqueza, é competência. Isso vai na direção oposta da cultura de hiperconfiança que muitos sistemas atuais acabam alimentando de forma não intencional. A colaboração real começa quando ambos os lados, o humano e a máquina, são capazes de dizer com clareza o que sabem e o que não sabem. 🤝
Valores Humanos Como Parte do Design
Uma das discussões mais ricas que emerge dessa pesquisa é sobre o papel dos valores humanos no desenvolvimento de sistemas de IA para saúde. Por muito tempo, o design desses sistemas foi guiado quase exclusivamente por métricas técnicas: acurácia, sensibilidade, especificidade, área sob a curva ROC. Essas métricas são importantes, mas elas não capturam dimensões fundamentais do cuidado médico, como a importância do consentimento informado, a necessidade de que o paciente entenda as incertezas do seu próprio diagnóstico, ou o valor ético de preservar a agência do profissional de saúde diante de uma recomendação automatizada.
O trabalho do MIT parte do princípio de que incorporar valores humanos ao design de um sistema de IA não é uma questão filosófica abstrata, é uma decisão de engenharia com consequências práticas diretas. Quando se decide que o sistema deve comunicar incerteza de forma clara, está se tomando uma posição ética sobre o direito do médico à informação completa. Quando se decide que o modelo deve sinalizar casos fora da sua distribuição de treinamento, está se tomando uma posição sobre responsabilidade e segurança do paciente. Cada escolha arquitetural carrega consigo um conjunto de valores, e a questão é se esses valores foram escolhidos conscientemente ou apenas herdados de otimizações passadas.
Pensar dessa forma abre espaço para que equipes multidisciplinares, que incluem não só engenheiros e cientistas de dados, mas também médicos, enfermeiros, bioeticistas, pacientes e especialistas em experiência do usuário, participem ativamente das decisões de design desde o início do desenvolvimento. Os valores humanos não podem ser adicionados como uma camada de verniz no final do processo. Eles precisam estar presentes na definição do problema, na escolha dos dados de treinamento, na forma como a interface comunica os resultados e na maneira como o sistema lida com os seus próprios erros. Essa é a diferença entre uma IA que foi feita para ser usada por humanos e uma que foi feita para trabalhar com humanos. ✨
O Desafio dos Dados e a Busca por Uma IA Mais Inclusiva
Esse estudo faz parte de um esforço maior de Celi e seus colegas para criar sistemas de IA que sejam desenhados por e para as pessoas que serão mais impactadas por essas ferramentas. Muitos modelos de IA, incluindo o MIMIC (Medical Information Mart for Intensive Care), são treinados com dados publicamente disponíveis dos Estados Unidos, o que pode introduzir vieses em direção a uma certa forma de pensar sobre questões médicas, excluindo outras perspectivas.
Trazer mais pontos de vista é essencial para superar esses vieses potenciais, segundo Celi, que enfatiza que cada membro do consórcio global traz uma perspectiva distinta para uma compreensão coletiva mais ampla.
Outro problema concreto dos sistemas de IA usados para diagnóstico é que eles geralmente são treinados com prontuários eletrônicos, que não foram originalmente criados para esse propósito. Isso significa que os dados carecem de muito do contexto que seria útil para fazer diagnósticos e recomendações de tratamento. Além disso, muitos pacientes nunca chegam a ser incluídos nesses conjuntos de dados por falta de acesso, como pessoas que vivem em áreas rurais.
Nos workshops de dados organizados pelo MIT Critical Data, grupos que reúnem cientistas de dados, profissionais de saúde, cientistas sociais, pacientes e outros atores trabalham juntos no design de novos sistemas de IA. Antes de começar, todos são incentivados a refletir se os dados que estão usando capturam todos os fatores que influenciam aquilo que pretendem prever, garantindo que não codifiquem inadvertidamente desigualdades estruturais existentes nos seus modelos.
Celi explica que faz os participantes questionarem o conjunto de dados: se estão confiantes sobre os dados de treinamento e validação, se acham que há pacientes que foram excluídos, intencional ou não intencionalmente, e como isso afetará o modelo em si. E complementa que não é possível parar ou sequer atrasar o desenvolvimento da IA, não só na saúde mas em todos os setores, porém é necessário ser mais deliberado e cuidadoso na forma como isso é feito.
O Que Muda na Prática Clínica
Traduzir tudo isso para o cotidiano de um hospital ou clínica exige pensar não só na tecnologia, mas em como ela se encaixa nos fluxos de trabalho reais dos profissionais de saúde. Um sistema que comunica incerteza precisa fazê-lo de uma forma que seja legível e útil dentro do tempo e da pressão que caracterizam o ambiente clínico. Não adianta entregar um relatório técnico detalhado sobre distribuições de probabilidade se o médico tem três minutos para tomar uma decisão sobre um paciente crítico. A interface e a forma de apresentação dos resultados são tão importantes quanto o modelo em si.
Nesse sentido, os pesquisadores também trabalharam com especialistas em interação humano-computador para desenvolver formas visuais e textuais de comunicar a incerteza do modelo de maneira imediata e intuitiva. Isso inclui indicadores visuais que distinguem casos de alta confiança de casos onde o sistema está operando em zona cinzenta, além de mensagens contextuais que explicam, de forma resumida, quais fatores do caso estão contribuindo para a incerteza. O objetivo é que o médico consiga absorver essas informações rapidamente e usá-las para calibrar o seu próprio processo de tomada de decisão, sem precisar mergulhar em documentação técnica para entender o que a máquina está dizendo.
A equipe de Celi já está implementando o novo framework em sistemas de IA baseados no banco de dados MIMIC e introduzindo-o junto a médicos do sistema Beth Israel Lahey Health. Essa abordagem pode ser aplicada também em sistemas usados para analisar imagens de raio-X ou para determinar as melhores opções de tratamento para pacientes no pronto-socorro, entre outras aplicações.
Médicos que trabalharam com a versão humilde do sistema reportaram maior confiança na ferramenta, não porque ela acertava mais, mas porque sabiam quando confiar nela e quando ser mais cuidadosos. Essa distinção é crucial. A confiança calibrada, que é saber exatamente até onde uma ferramenta pode ir, é muito mais valiosa do que a confiança cega, que é assumir que a ferramenta sempre sabe melhor. E é exatamente isso que uma IA com humildade genuína consegue construir ao longo do tempo com os profissionais que a utilizam. 💡
O Caminho Pela Frente
A pesquisa, financiada pelo Boston-Korea Innovative Research Project por meio do Korea Health Industry Development Institute, representa um passo importante na direção de sistemas de IA que tratam o profissional de saúde como parceiro, e não como mero receptor de instruções automatizadas. Mais do que uma inovação técnica isolada, o framework proposto pelo MIT coloca no centro da discussão uma pergunta que todo o setor de tecnologia em saúde precisa encarar: de que serve uma IA extremamente precisa se ela não consegue reconhecer os limites da sua própria precisão?
A resposta que os pesquisadores oferecem é que a humildade computacional não é um luxo ou um recurso extra. É uma necessidade fundamental para que a Inteligência Artificial cumpra de fato a promessa de ajudar médicos a diagnosticar pacientes e personalizar opções de tratamento, sem correr o risco de empurrá-los na direção errada.
E talvez a maior lição aqui seja que, para a tecnologia avançar de verdade no cuidado com a saúde, ela precisa aprender algo que os melhores médicos já sabem há séculos: a diferença entre ter uma resposta e ter a resposta certa nem sempre é óbvia, e reconhecer isso faz toda a diferença. 🧠
