Pacientes y médicos: los LLM logran una alta precisión de control de calidad, pero requieren una evaluación humana para la seguridad clínica

Revisión: Los LLM tienen un alto puntaje en control de calidad pero necesitan una evaluación humana en el mundo real para un uso clínico seguro.

15 de agosto de 2025by Jose Zea

Leer el artículo →

Avanzando en la evaluación de modelos lingüísticos extensos y agentes conversacionales en el ámbito sanitario: una revisión exhaustiva revela los principales retos de la evaluación y las estrategias emergentes

A medida que las tecnologías de inteligencia artificial (IA), como los modelos lingüísticos extensos (LLM) y los agentes conversacionales (AC), se incorporan rápidamente al ámbito sanitario, su potencial para mejorar la toma de decisiones clínicas y la atención al paciente es enorme. Sin embargo, garantizar la seguridad, precisión y eficacia de estas herramientas de IA requiere una evaluación rigurosa, algo con lo que el campo aún lidia. Una nueva revisión exhaustiva de la literatura realizada por investigadores de Arkangel AI arroja luz sobre el panorama actual de las evaluaciones de LLM y CA en entornos clínicos, destacando los métodos existentes, sus limitaciones y las prometedoras perspectivas de futuro. La revisión concluye que, si bien los conjuntos de datos de preguntas y respuestas que simulan exámenes clínicos siguen siendo el estándar de facto para evaluar el conocimiento y el razonamiento médico, no capturan completamente la seguridad del modelo, la eficacia en el mundo real ni la calidad de la interacción del usuario. La evaluación humana sigue siendo crucial, pero requiere muchos recursos y su escala es limitada. Los autores abogan por combinar métricas automatizadas cuantitativas con la evaluación humana cualitativa, junto con marcos innovadores que enfatizan la interacción humano-IA en el mundo real y la evaluación de riesgos de seguridad. Su análisis sirve como hoja de ruta para guiar el desarrollo y la implementación futuros de estas herramientas de IA transformadoras.

Colaboración y contexto del estudio

Esta exhaustiva revisión fue realizada por un equipo multidisciplinario de Arkangel AI, que incluye epidemiólogos médicos, ingenieros biomédicos y expertos en aprendizaje automático. La investigación se basa en una amplia gama de fuentes, incluyendo revistas arbitradas, prepublicaciones, actas de congresos y declaraciones de consenso de expertos publicadas entre 2015 y 2024. Las perspectivas de los recientes simposios de salud global y congresos nacionales en Colombia aportan un contexto valioso, reflejando las prioridades clínicas del mundo real y las necesidades de los usuarios.

Este contexto es particularmente importante porque refleja la creciente demanda de marcos de evaluación de IA fiables y adecuados para entornos clínicos dinámicos. El equipo de Arkangel AI enfatiza la necesidad de superar la brecha entre los rápidos avances de la IA en la comprensión del lenguaje natural y su evaluación práctica en el ámbito sanitario, donde la seguridad del paciente, la precisión clínica y las consideraciones éticas son primordiales.

Diseño y metodología del estudio

El estudio empleó una metodología de revisión bibliográfica narrativa y no estructurada. Implicó un análisis exhaustivo de 40 manuscritos relevantes que abarcaron diversos diseños de estudio, como revisiones sistemáticas, artículos de consenso de expertos, editoriales e informes técnicos. Se exploraron bases de datos como PubMed, Arxiv, MedRxiv y Google Scholar, complementadas con la búsqueda de literatura gris y datos de la clasificación de modelos de IA. El alcance de los métodos de evaluación abarcó tanto conjuntos de datos de preguntas y respuestas (QA) automatizadas como marcos de evaluación humana (HE).

Las herramientas clave de IA consideradas son los LLM y los CA capacitados con conjuntos de datos masivos que abarcan libros de texto clínicos, exámenes médicos, literatura de investigación y diálogos médicos en línea. Estos modelos aprovechan arquitecturas de procesamiento del lenguaje natural como BioBERT, GPT-4, Med-PaLM 2 y otros transformadores optimizados para simular el conocimiento y el razonamiento clínicos.

Resultados clave

Conjuntos de datos de preguntas y respuestas:
- MedQA (basado en el USMLE): GPT-4 con Medprompt alcanzó una precisión de hasta el 90,2 %, superando a modelos anteriores como BioBERTLarge (42,0 %) y la puntuación de aprobación humana (60 %).
- MedMCQA (con sede en India): Med-PaLM 2 alcanzó una precisión del 72,3 %, frente al 47 % de la tecnología anterior y una puntuación de aprobación humana del 50 %.
- PubMedQA (resúmenes biomédicos): GPT-4 con Medprompt obtuvo una precisión del 81,6 %, superando Un punto de referencia de expertos humanos del 78 %.
- El subconjunto clínico MMLU – Med-PaLM 2 obtuvo una puntuación de entre el 84,4 % y el 95,8 % en diversas especialidades médicas.
- Los conjuntos de datos naturalistas como MeDiaQA evalúan la comprensión conversacional, destacando la importancia de ampliar la evaluación más allá de las preguntas y respuestas factuales para abarcar la comprensión del diálogo.
Limitaciones de la evaluación automatizada de control de calidad:
- La evaluación depende en gran medida de la especificidad de la pronta respuesta; Los modelos a menudo alucinan o razonan incorrectamente.
- Las tareas estándar de control de calidad no miden la calidad de la comunicación ni la adaptabilidad a diversas entradas de los usuarios.
- Las métricas automatizadas como BLEU y ROUGE carecen de correlación con el juicio humano sobre la relevancia clínica y la seguridad.
Marcos de evaluación humana:
- La revisión por expertos humanos sigue siendo el estándar de oro para evaluar la precisión, la relevancia y la seguridad, aunque es costosa y logísticamente desafiante.
- Los estudios que utilizan escalas estructuradas muestran una concordancia entre evaluadores a menudo baja (kappa <0,5), lo que subraya la complejidad de la evaluación.
- Los ensayos humanos a gran escala con médicos y enfermeras que evalúan agentes conversacionales indican resultados mixtos en cuanto al trato con el paciente, el razonamiento clínico y los problemas de seguridad.
- Los nuevos marcos de evaluación proponen integrar la revisión humana con la puntuación asistida por IA para mejorar la escalabilidad y Consistencia.
Perspectivas Emergentes:
- Las Evaluaciones de Interacción Humana (EHI) se centran en la brecha sociotécnica, midiendo el uso en el mundo real, los riesgos de seguridad y la finalización de tareas en los flujos de trabajo clínicos.
- Los marcos que abordan la identificación de riesgos, el uso contextual y la dinámica de colaboración entre humanos e IA están ganando terreno para guiar el diseño y la implementación.
- Los enfoques que fomentan la deliberación reflexiva entre humanos e IA son prometedores para la toma de decisiones clínicas complejas y de alto riesgo.

Interpretación e Implicaciones

Esta revisión presenta un panorama claro: si bien los LLM han logrado un rendimiento notable en la respuesta a preguntas médicas, que rivaliza o supera los parámetros humanos, la evaluación automatizada por sí sola no puede garantizar la seguridad clínica ni la usabilidad. La imprevisibilidad del razonamiento de los modelos, la susceptibilidad a sesgos y las frecuentes alucinaciones requieren enfoques de evaluación estratificados.

Para los profesionales clínicos y los sistemas de salud, estos hallazgos enfatizan que la implementación de herramientas basadas en LLM exige una evaluación robusta y multidimensional que abarque no solo la precisión del conocimiento, sino también el estilo de comunicación, la calidad de la interacción y la mitigación de riesgos. La combinación de pruebas de control de calidad automatizadas con revisiones humanas cuidadosamente diseñadas crea un ecosistema de validación equilibrado. Además, la incorporación de escenarios de uso reales y la perspectiva de la interacción humana es vital para lograr una IA confiable que realmente respalde los flujos de trabajo clínicos y los resultados de los pacientes.

Sin embargo, persisten desafíos: las evaluaciones humanas consumen muchos recursos y son propensas a la variabilidad, mientras que los conjuntos de datos de control de calidad actuales tienen un alcance limitado y podrían no representar completamente los diversos contextos clínicos. El desarrollo de instrumentos de evaluación estandarizados y validados, así como la expansión de ensayos prácticos en entornos sanitarios reales, serán pasos clave en el futuro.

Implementación y Escalabilidad

Aunque los modelos revisados aún no se implementan como sistemas independientes de apoyo a la toma de decisiones clínicas, muchos están integrados en prototipos de agentes conversacionales diseñados para profesionales sanitarios y pacientes. Los resultados de la evaluación guían futuras estrategias de implementación, priorizando la seguridad, la interpretabilidad y la usabilidad.

Entre las barreras identificadas se incluyen el alto coste y la carga de tiempo que requiere una evaluación humana rigurosa, la dificultad de escalar las evaluaciones para abarcar amplios escenarios clínicos y la necesidad de garantizar la adaptabilidad a diferentes niveles de alfabetización en salud e idiomas. Para superar estas barreras, se proponen soluciones innovadoras como la evaluación humana asistida por IA, la monitorización continua posterior a la implementación y marcos de evaluación modulares adaptados a casos de uso específicos.

Además, dado que los LLM son tecnologías generalizadas, los enfoques de evaluación desarrollados aquí tienen relevancia transversal para otras especialidades médicas, idiomas y sistemas conversacionales de IA emergentes. Esta flexibilidad facilita una mayor escalabilidad y una integración a largo plazo en diversos entornos sanitarios.

Conclusión y próximos pasos

La revisión de Arkangel AI subraya que la evaluación de grandes modelos lingüísticos y agentes conversacionales para la atención médica es una tarea compleja y en constante evolución. Si bien los parámetros de referencia existentes para preguntas y respuestas proporcionan información valiosa sobre el conocimiento clínico y la capacidad de razonamiento, no abarcan de forma exhaustiva la seguridad, la calidad de la interacción ni la eficacia en el mundo real.

La evaluación humana sigue siendo esencial, pero debe complementarse con métricas y marcos escalables y objetivos que se centren en la colaboración entre humanos y la IA y en los riesgos específicos del contexto. Las futuras prioridades de investigación incluyen el desarrollo de protocolos de evaluación estandarizados, la adaptación de las evaluaciones a diversos entornos clínicos y usuarios, y la integración de la evaluación continua en las herramientas de IA implementadas para garantizar la seguridad y la eficacia continuas.

A medida que los LLM continúan avanzando y la adopción de la IA en el ámbito sanitario crece, la creación de infraestructuras de evaluación robustas y multifacéticas será fundamental para aprovechar al máximo el potencial de los agentes conversacionales, protegiendo a la vez tanto a pacientes como a profesionales sanitarios.

Para los líderes en innovación sanitaria, esta síntesis exhaustiva proporciona una base para diseñar, validar e implementar herramientas conversacionales de IA fiables que cumplan con los más altos estándares clínicos.

Referencia: Castano-Villegas N, Llano I, Martinez J, Jimenez D, Villa MC, Zea J, Velasquez L. "Approaches to Evaluating Large Language Models and Conversational Agents for Healthcare Applications." Arkangel AI, 2024. [Texto completo disponible a petición.]