El Problema Silencioso de la IA en la Salud: Equivocarse Con Convicción
Inteligencia Artificial ya se volvió rutina en muchos hospitales y clínicas alrededor del mundo, pero existe un problema que pocos se detienen a discutir: ¿y cuando se equivoca con mucha convicción?
No es ciencia ficción.
Médicos reales han ignorado su propia intuición clínica porque un sistema de IA señaló algo diferente, y con una confianza tan alta que parecía imposible cuestionarlo. El resultado de esto puede ser peligroso, especialmente cuando el diagnóstico erróneo se acepta como verdad solo porque vino de una máquina que parece saberlo todo.
Es exactamente ese escenario el que un grupo internacional de investigadores liderado por el MIT decidió enfrentar de frente. El estudio, publicado en la revista BMJ Health and Care Informatics, trae una propuesta aparentemente simple, pero técnicamente sofisticada: enseñar a la IA a tener humildad.
No humildad en el sentido poético de la palabra, sino la capacidad real de reconocer cuando no tiene certeza de lo que está diciendo, señalar esa incertidumbre al médico e incentivar la búsqueda de más información antes de cualquier decisión.
La diferencia entre una IA que actúa como oráculo y una que actúa como copiloto puede parecer pequeña en el papel, pero en la práctica clínica lo cambia todo. 🏥
Como resume Leo Anthony Celi, investigador sénior del Instituto de Ingeniería y Ciencia Médica del MIT, médico en el Beth Israel Deaconess Medical Center y profesor asociado en Harvard Medical School: la idea es usar la IA no como una entidad que entrega respuestas listas, sino como una compañera que aumenta la capacidad del profesional de conectar los puntos y tomar decisiones más informadas.
El Problema Real: Cuando la Máquina Tiene Demasiada Confianza
Durante años, el desarrollo de sistemas de Inteligencia Artificial para salud fue guiado por una métrica muy específica: la precisión. Cuanto más acertaba el modelo, mejor se lo consideraba. Esto generó herramientas increíblemente precisas en condiciones ideales, pero también creó un efecto colateral silencioso y peligroso. Sistemas entrenados para siempre entregar una respuesta definitiva pasaron a hacer exactamente eso, incluso cuando los datos de entrada eran ambiguos, incompletos o fuera del patrón que el modelo había aprendido a reconocer. Es decir, la máquina aprendió a parecer segura, independientemente de estar en lo correcto o no.
Ese comportamiento tiene un nombre técnico: overconfidence, o exceso de confianza. Y es especialmente problemático en el entorno clínico, porque los profesionales de salud que trabajan al lado de estas herramientas tienden a interpretar una puntuación alta de confianza como una especie de confirmación. Cuando un sistema señala 97% de probabilidad para determinado diagnóstico, es psicológicamente muy difícil para cualquier ser humano cuestionar aquello, incluso cuando algo en la presentación clínica del paciente no encaja exactamente con lo que aparece en la pantalla.
Estudios anteriores citados por los propios investigadores del MIT muestran que médicos de UCI tienden a ceder ante sistemas de IA que perciben como confiables, incluso cuando su propia intuición va en la dirección contraria. Tanto médicos como pacientes son más propensos a aceptar recomendaciones incorrectas de la IA cuando estas se presentan de forma autoritativa. El sesgo de automatización, que es la tendencia a confiar demasiado en sistemas automatizados, comienza a comprometer la calidad del cuidado de forma concreta y medible.
El problema no es que la IA se equivoque. Cualquier sistema va a equivocarse en algún momento. El problema es cuando se equivoca sin avisar que puede estar equivocándose, y eso transforma una herramienta de apoyo en una fuente de riesgo real para el paciente.
La Investigación del MIT: Un Framework Para IA Humilde
El grupo de investigadores liderado por Celi, con autoría principal de Sebastián Andrés Cajas Ordoñez, investigador del MIT Critical Data, un consorcio global vinculado al Laboratorio de Fisiología Computacional del MIT, partió de una premisa que parece obvia pero que raramente se pone en práctica: un sistema de Inteligencia Artificial honesto necesita saber cuándo no sabe.
Para eso, el consorcio desarrolló un framework compuesto por módulos computacionales que pueden incorporarse a sistemas de IA ya existentes. El primero de estos módulos exige que el modelo de IA evalúe su propia certeza al hacer predicciones diagnósticas. Desarrollado por los miembros del consorcio Janan Arslan y Kurt Benke, de la Universidad de Melbourne, este componente recibió el nombre de Epistemic Virtue Score, o Puntuación de Virtud Epistémica. Funciona como una especie de chequeo de autoconocimiento, garantizando que la confianza del sistema sea debidamente moderada por la incertidumbre inherente y por la complejidad de cada escenario clínico.
Con esa autoconciencia en funcionamiento, el modelo pasa a adaptar su respuesta a la situación. Si el sistema detecta que su confianza excede lo que las evidencias disponibles sustentan, puede pausar y señalar la inconsistencia. A partir de ahí, puede solicitar exámenes específicos o historial adicional que ayuden a resolver la incertidumbre, o recomendar una consulta con un especialista. El objetivo es crear una IA que no solo proporcione respuestas, sino que también señale cuándo esas respuestas deben tratarse con cautela.
En palabras de Celi, es como tener un copiloto que te dice que es necesario buscar una mirada fresca para entender mejor a ese paciente complejo. 🔬
Técnicamente, esto involucra lo que el área llama calibración de incertidumbre, que es la capacidad del modelo de expresar el grado de confianza en sus propias predicciones de forma que refleje con precisión la realidad. Un modelo bien calibrado no dice 95% de certeza cuando, dadas las condiciones del caso, el margen de error es mucho mayor que eso.
Además, el modelo fue diseñado para identificar automáticamente cuándo un caso está fuera de la distribución de los datos con los que fue entrenado, lo que en lenguaje técnico se denomina out-of-distribution detection. Esto es fundamental porque gran parte de los errores graves de IA clínica ocurren justamente cuando el sistema encuentra un perfil de paciente, una combinación de síntomas o un tipo de imagen que nunca vio durante el entrenamiento, y aun así responde con alta confianza como si aquello fuera completamente familiar. Con la detección activa de estos casos, el sistema consigue señalar al médico que ese diagnóstico específico se está realizando en territorio desconocido, y que la supervisión humana es especialmente importante ahí.
Colaboración de Verdad: IA y Médico Trabajando Juntos
El concepto de colaboración entre humanos y máquinas en el entorno de salud no es nuevo, pero raramente se ha implementado de forma genuina. En la mayoría de los casos, lo que existe es una relación de consulta unidireccional: el médico ingresa los datos, el sistema devuelve una respuesta, y le corresponde al profesional decidir si sigue o no esa recomendación. El problema es que, cuando la respuesta viene acompañada de una puntuación de confianza altísima, esa decisión raramente se toma de forma verdaderamente independiente. La colaboración termina siendo superficial, y el peso real de la decisión queda invisible.
El modelo propuesto por el MIT intenta cambiar esa dinámica de forma estructural. Al hacer la incertidumbre explícita y comunicable, el sistema transforma la interacción entre médico e IA en algo mucho más cercano a un diálogo real. El profesional de salud no recibe solo una respuesta, recibe contexto. Sabe cuáles son las hipótesis competidoras, entiende qué aspectos del caso son más difíciles de interpretar con los datos disponibles, y consigue usar ese mapa de incertidumbres para direccionar los próximos pasos de la investigación clínica.
Esto puede significar pedir un examen adicional, llamar a un especialista o simplemente reservar más tiempo para observar la evolución del paciente antes de concluir el diagnóstico.
Como explica Cajas Ordoñez, la idea es incluir a los humanos de forma activa en estos sistemas de IA, facilitando que las personas reflexionen y reimaginen colectivamente, en lugar de depender de agentes de IA aislados que hacen todo solos. El objetivo es que los humanos se vuelvan más creativos mediante el uso de la inteligencia artificial, no menos.
Este enfoque también tiene un impacto importante sobre la formación médica y la cultura clínica en su conjunto. Cuando los sistemas de Inteligencia Artificial son transparentes sobre sus limitaciones, refuerzan en los profesionales la idea de que la incertidumbre forma parte del proceso y que reconocerla no es debilidad, es competencia. Esto va en la dirección opuesta a la cultura de hiperconfianza que muchos sistemas actuales terminan alimentando de forma no intencional. La colaboración real comienza cuando ambas partes, la humana y la máquina, son capaces de decir con claridad lo que saben y lo que no saben. 🤝
Valores Humanos Como Parte del Diseño
Una de las discusiones más ricas que surge de esta investigación es sobre el papel de los valores humanos en el desarrollo de sistemas de IA para salud. Durante mucho tiempo, el diseño de estos sistemas fue guiado casi exclusivamente por métricas técnicas: precisión, sensibilidad, especificidad, área bajo la curva ROC. Esas métricas son importantes, pero no capturan dimensiones fundamentales del cuidado médico, como la importancia del consentimiento informado, la necesidad de que el paciente entienda las incertidumbres de su propio diagnóstico, o el valor ético de preservar la agencia del profesional de salud frente a una recomendación automatizada.
El trabajo del MIT parte del principio de que incorporar valores humanos al diseño de un sistema de IA no es una cuestión filosófica abstracta, es una decisión de ingeniería con consecuencias prácticas directas. Cuando se decide que el sistema debe comunicar incertidumbre de forma clara, se está tomando una posición ética sobre el derecho del médico a la información completa. Cuando se decide que el modelo debe señalar casos fuera de su distribución de entrenamiento, se está tomando una posición sobre responsabilidad y seguridad del paciente. Cada elección arquitectónica lleva consigo un conjunto de valores, y la cuestión es si esos valores fueron elegidos conscientemente o simplemente heredados de optimizaciones pasadas.
Pensar de esta forma abre espacio para que equipos multidisciplinarios, que incluyen no solo ingenieros y científicos de datos, sino también médicos, enfermeros, bioeticistas, pacientes y especialistas en experiencia de usuario, participen activamente en las decisiones de diseño desde el inicio del desarrollo. Los valores humanos no pueden añadirse como una capa de barniz al final del proceso. Necesitan estar presentes en la definición del problema, en la elección de los datos de entrenamiento, en la forma en que la interfaz comunica los resultados y en la manera en que el sistema lidia con sus propios errores. Esa es la diferencia entre una IA que fue hecha para ser usada por humanos y una que fue hecha para trabajar con humanos. ✨
El Desafío de los Datos y la Búsqueda de una IA Más Inclusiva
Este estudio forma parte de un esfuerzo mayor de Celi y sus colegas por crear sistemas de IA que sean diseñados por y para las personas que serán más impactadas por estas herramientas. Muchos modelos de IA, incluyendo el MIMIC (Medical Information Mart for Intensive Care), son entrenados con datos públicamente disponibles de Estados Unidos, lo que puede introducir sesgos hacia una cierta forma de pensar sobre cuestiones médicas, excluyendo otras perspectivas.
Traer más puntos de vista es esencial para superar esos sesgos potenciales, según Celi, quien enfatiza que cada miembro del consorcio global aporta una perspectiva distinta para una comprensión colectiva más amplia.
Otro problema concreto de los sistemas de IA usados para diagnóstico es que generalmente son entrenados con historiales clínicos electrónicos, que no fueron originalmente creados para ese propósito. Esto significa que los datos carecen de mucho del contexto que sería útil para hacer diagnósticos y recomendaciones de tratamiento. Además, muchos pacientes nunca llegan a ser incluidos en esos conjuntos de datos por falta de acceso, como personas que viven en áreas rurales.
En los talleres de datos organizados por el MIT Critical Data, grupos que reúnen científicos de datos, profesionales de salud, científicos sociales, pacientes y otros actores trabajan juntos en el diseño de nuevos sistemas de IA. Antes de comenzar, todos son incentivados a reflexionar si los datos que están usando capturan todos los factores que influyen en aquello que pretenden predecir, garantizando que no codifiquen inadvertidamente desigualdades estructurales existentes en sus modelos.
Celi explica que hace que los participantes cuestionen el conjunto de datos: si tienen confianza sobre los datos de entrenamiento y validación, si creen que hay pacientes que fueron excluidos, intencional o no intencionalmente, y cómo eso afectará al modelo en sí. Y complementa que no es posible detener ni siquiera retrasar el desarrollo de la IA, no solo en salud sino en todos los sectores, pero sí es necesario ser más deliberado y cuidadoso en la forma en que se hace.
Qué Cambia en la Práctica Clínica
Traducir todo esto al día a día de un hospital o clínica exige pensar no solo en la tecnología, sino en cómo encaja en los flujos de trabajo reales de los profesionales de salud. Un sistema que comunica incertidumbre necesita hacerlo de una forma que sea legible y útil dentro del tiempo y la presión que caracterizan el entorno clínico. No sirve de nada entregar un informe técnico detallado sobre distribuciones de probabilidad si el médico tiene tres minutos para tomar una decisión sobre un paciente crítico. La interfaz y la forma de presentación de los resultados son tan importantes como el modelo en sí.
En ese sentido, los investigadores también trabajaron con especialistas en interacción humano-computadora para desarrollar formas visuales y textuales de comunicar la incertidumbre del modelo de manera inmediata e intuitiva. Esto incluye indicadores visuales que distinguen casos de alta confianza de casos donde el sistema está operando en zona gris, además de mensajes contextuales que explican, de forma resumida, qué factores del caso están contribuyendo a la incertidumbre. El objetivo es que el médico consiga absorber esa información rápidamente y usarla para calibrar su propio proceso de toma de decisiones, sin necesidad de sumergirse en documentación técnica para entender lo que la máquina está diciendo.
El equipo de Celi ya está implementando el nuevo framework en sistemas de IA basados en la base de datos MIMIC e introduciéndolo junto a médicos del sistema Beth Israel Lahey Health. Este enfoque puede aplicarse también en sistemas usados para analizar imágenes de rayos X o para determinar las mejores opciones de tratamiento para pacientes en urgencias, entre otras aplicaciones.
Médicos que trabajaron con la versión humilde del sistema reportaron mayor confianza en la herramienta, no porque acertara más, sino porque sabían cuándo confiar en ella y cuándo ser más cuidadosos. Esa distinción es crucial. La confianza calibrada, que es saber exactamente hasta dónde puede llegar una herramienta, es mucho más valiosa que la confianza ciega, que es asumir que la herramienta siempre sabe más. Y es exactamente eso lo que una IA con humildad genuina consigue construir a lo largo del tiempo con los profesionales que la utilizan. 💡
El Camino Por Delante
La investigación, financiada por el Boston-Korea Innovative Research Project a través del Korea Health Industry Development Institute, representa un paso importante en la dirección de sistemas de IA que tratan al profesional de salud como socio, y no como mero receptor de instrucciones automatizadas. Más que una innovación técnica aislada, el framework propuesto por el MIT pone en el centro de la discusión una pregunta que todo el sector de tecnología en salud necesita encarar: ¿de qué sirve una IA extremadamente precisa si no consigue reconocer los límites de su propia precisión?
La respuesta que los investigadores ofrecen es que la humildad computacional no es un lujo ni un recurso extra. Es una necesidad fundamental para que la Inteligencia Artificial cumpla de hecho la promesa de ayudar a los médicos a diagnosticar pacientes y personalizar opciones de tratamiento, sin correr el riesgo de empujarlos en la dirección equivocada.
Y tal vez la mayor lección aquí sea que, para que la tecnología avance de verdad en el cuidado de la salud, necesita aprender algo que los mejores médicos ya saben desde hace siglos: la diferencia entre tener una respuesta y tener la respuesta correcta no siempre es obvia, y reconocer eso hace toda la diferencia. 🧠
