PANDORA LLM automatiza la detección del riesgo de EPOC con una extracción casi perfecta y una precisión PUMA del 94 %

LLM autoextraído en UCI/paciente ambulatorio (~100%) y PUMA aplicado: 94% de precisión de puntuación; 100% de sensibilidad

15 de agosto de 2025por Jose Zea

Leer el artículo →

PANDORA: Aprovechamiento de grandes modelos de lenguaje para automatizar la extracción de datos clínicos y la evaluación del riesgo de EPOC con una precisión casi perfecta

En la atención médica moderna, grandes cantidades de información valiosa de los pacientes permanecen atrapadas en notas clínicas no estructuradas, lo que limita su uso eficaz para el diagnóstico, la estratificación del riesgo y la investigación. El innovador sistema de IA PANDORA aprovecha los Modelos de Lenguaje Largo (LLM) avanzados para extraer automáticamente características clínicas clave de documentos médicos sin procesar y aplicar una puntuación de riesgo validada —demostrada aquí con la detección de casos de Enfermedad Pulmonar Obstructiva Crónica (EPOC)—, ofreciendo recomendaciones con una precisión excepcional.

En este estudio pionero, investigadores de Arkangel AI en Bogotá, Colombia, validaron el rendimiento de PANDORA utilizando complejas notas de alta de UCI de la base de datos MIMIC-IV y casos ambulatorios generados sintéticamente. El sistema logró una precisión de extracción de datos casi perfecta (100 % en notas MIMIC y 99,6 % en historias clínicas sintéticas) y aplicó correctamente la puntuación de cribado de EPOC PUMA con una precisión del 94 %, identificando finalmente a los pacientes con riesgo de EPOC con sensibilidades de hasta el 100 %. Estos resultados demuestran el potencial de PANDORA para transformar textos clínicos no estructurados en información práctica, cerrando una brecha crítica en el uso de datos de salud en el mundo real.

Introducción: Desbloqueando el conocimiento a partir de textos clínicos no estructurados

Los historiales clínicos son la base de la atención al paciente; sin embargo, hasta el 80 % de los datos que contienen existen en formatos no estructurados, como notas médicas, resúmenes de alta e informes narrativos. Esta información de "texto libre" contiene información crucial (historial de síntomas, tabaquismo, resultados de pruebas, etc.) que históricamente ha requerido mucho trabajo para extraerla e incorporarla en los flujos de trabajo de toma de decisiones. Este obstáculo resulta en la pérdida de oportunidades para el diagnóstico temprano, la gestión de la salud poblacional y el sesgo de investigación debido a conjuntos de datos incompletos.

Los métodos tradicionales para aprovechar datos no estructurados se han basado en revisiones manuales de historiales o sistemas de procesamiento del lenguaje natural (PLN) basados en reglas con una adaptabilidad limitada. Mientras tanto, los recientes avances en los LLM, que comprenden el contexto y la terminología médica a alto nivel, han abierto una nueva frontera para la extracción de información escalable y precisa directamente del texto clínico sin procesar.

Presentamos PANDORA: un marco de IA modular compuesto por dos agentes LLM sincronizados, diseñado para extraer características clínicas relevantes de historias clínicas electrónicas (HCE) no estructuradas e implementar automáticamente puntuaciones de riesgo clínico basadas en estas características. En este estudio, el enfoque se centró en la evaluación del riesgo de EPOC mediante la herramienta de cribado PUMA, comprobando la capacidad de PANDORA para replicar la extracción de datos a nivel experto y la precisión de la puntuación utilizando datos clínicos tanto reales como sintéticos.

Contexto del estudio y colaboración

Este estudio fue realizado por el equipo de IA de Arkangel en Bogotá, Colombia, lo que refleja un creciente esfuerzo en Latinoamérica por aprovechar las herramientas de IA adaptadas a las necesidades regionales de atención médica. La decisión de centrarse en la EPOC se debe a su alta prevalencia a nivel mundial, especialmente en Latinoamérica, con tasas considerables de infradiagnóstico, estimadas en hasta un 89%. La identificación temprana y precisa del riesgo de EPOC sigue siendo una necesidad urgente no satisfecha, tanto en entornos ambulatorios como de cuidados intensivos.

La inclusión del conjunto de datos MIMIC-IV, que incluye notas detalladas de alta de la UCI de un importante centro médico académico estadounidense, garantiza que el modelo se haya probado con documentación clínica compleja y real, representativa de casos graves de enfermedad. Como complemento, las historias clínicas ambulatorias generadas sintéticamente, modeladas a partir de consultas de atención primaria en Colombia, ampliaron la evaluación a escenarios clínicos más típicos y diversos.

Diseño y metodología del estudio

El sistema PANDORA consta de dos fases principales:

Fase de extracción: Un módulo basado en LLM procesa el texto no estructurado de la HCE para extraer características clínicas predefinidas relevantes para el riesgo de EPOC, como el historial de tabaquismo, la cronicidad de los síntomas y los diagnósticos previos.
Fase de puntuación y recomendación: Con los datos extraídos, un segundo LLM aplica la puntuación PUMA de EPOC (una calculadora clínica validada de 7 criterios que determina la necesidad de una prueba de espirometría) y genera una clasificación binaria del riesgo de EPOC (positiva si la puntuación es ≥5).

Fuentes de datos incluidas:

Base de datos MIMIC-IV: 615 evaluados Pares de control de calidad de las notas de alta de 2002 a 2019, incluidos en los registros de pacientes de la UCI del Centro Médico Beth Israel Deaconess.
Historiales clínicos sintéticos para pacientes ambulatorios: 700 pares de control de calidad generados con tecnología GPT, siguiendo los estándares colombianos de documentación clínica, para simular diversos diagnósticos diferenciales de EPOC.

Métricas de evaluación centradas en:
- Precisión de la extracción: Identificación correcta de las características clínicas a partir de texto no estructurado, comparada con pares de control de calidad validados por expertos.
- Precisión de la puntuación: Cálculo correcto de la puntuación de riesgo de EPOC PUMA a partir de los datos extraídos.
- Rendimiento de la recomendación: Sensibilidad, especificidad, precisión, exactitud, puntuación F1 y Kappa de Cohen para la clasificación del riesgo de EPOC.
  
  Clave Resultados
  - Fase de Extracción:
    - 100 % de precisión en las notas de alta de MIMIC (615 pares de control de calidad).
    - 99,6 % de precisión en las historias clínicas ambulatorias generadas sintéticamente (700 pares de control de calidad).
  - Fase de Puntuación:
    - 94,5 % de precisión en el cálculo de las puntuaciones PUMA con datos de MIMIC.
    - 94,1 % de precisión en las puntuaciones sintéticas de casos.
  - Fase de Recomendación (Clasificación del riesgo de EPOC):
    - Sensibilidad: 85,5 % (se consideran MIMIC con antecedentes de EPOC), 19,4 % (MIMIC sin antecedentes) y 100 % (casos sintéticos).
    - Especificidad: 70 % (MIMIC con antecedentes), 92,5 % (MIMIC sin antecedentes), pero solo 20 % (casos sintéticos).
    - Precisión general: 79,4 % (MIMIC con antecedentes), 48,0 % (MIMIC sin antecedentes) y 36,0 % (casos sintéticos).
    - La inclusión del diagnóstico previo de EPOC como característica mejoró drásticamente la sensibilidad en un 66 %, pero redujo la especificidad en un 22,5 %.
  Interpretación e implicaciones clínicas
  
  La capacidad de PANDORA para lograr una precisión de extracción casi perfecta en textos clínicos altamente heterogéneos y no estructurados constituye un avance significativo, que demuestra que los modelos de lenguaje extensos pueden identificar de forma fiable elementos clínicos esenciales sin preprocesamiento ni entrada estructurada. Esta función por sí sola podría reducir drásticamente el esfuerzo manual que tradicionalmente se requiere para la extracción de datos de HCE.
  
  Más importante aún, la integración del sistema con una herramienta validada para la detección de la EPOC (PUMA) y su alta precisión al replicar la estratificación del riesgo marcan el inicio de una nueva era en la que la IA puede integrar a la perfección la extracción de texto con el apoyo a la toma de decisiones clínicas basado en la evidencia. En la práctica, esto significa que los médicos podrían recibir alertas automatizadas sobre pacientes con riesgo de EPOC durante la revisión rutinaria de historias clínicas, lo que facilita la realización de pruebas de espirometría oportunas y un diagnóstico más temprano.
  
  Las diferencias observadas en la especificidad entre el conjunto de datos MIMIC, con un alto componente de UCI, y las historias clínicas sintéticas de pacientes ambulatorios resaltan la importancia de contextualizar las herramientas de IA a las poblaciones de pacientes y los entornos clínicos donde se implementan. La alta sensibilidad, pero la reducida especificidad de PANDORA en entornos ambulatorios sintéticos, refleja el diseño inherente de PUMA para priorizar la detección de casos sobre los falsos negativos, lo que lo hace adecuado para el cribado oportunista, pero requiere calibración en poblaciones más amplias.
  
  Además, la incorporación del historial conocido de EPOC en la evaluación de riesgos mejoró sustancialmente las capacidades de detección, un ejemplo de cómo la combinación de datos extraídos con la lógica clínica mejora la utilidad del modelo.
  
  Implementación y escalabilidad
  
  La arquitectura modular de PANDORA permite una integración sencilla en sistemas de HCE hospitalarios o plataformas de software clínico ambulatorio. Puede procesar notas clínicas en tiempo real o por lotes, lo que permite a los profesionales sanitarios acceder rápidamente a información clave y recomendaciones basadas en directrices.
  
  Entre las posibles barreras para su implementación se incluyen la variabilidad en los estilos de documentación de las HCE entre instituciones y países, la disponibilidad variable de características críticas (p. ej., el historial de tabaquismo, a menudo omitido en conjuntos de datos anónimos) y la necesidad de supervisión humana continua para abordar los sesgos y errores del LLM.
  
  Sin embargo, la dependencia de PANDORA de puntuaciones clínicas universalmente validadas como PUMA permite su adaptabilidad: al sustituir o añadir otras herramientas validadas específicas para cada enfermedad, el sistema podría ampliarse para detectar o gestionar múltiples afecciones más allá de la EPOC, como el riesgo cardiovascular, la diabetes y las enfermedades infecciosas.
  
  Conclusión y futuras direcciones
  
  PANDORA representa un paso pionero en la aplicación de modelos de lenguaje de gran tamaño para la extracción automatizada de datos clínicos no estructurados y la aplicación de puntuaciones clínicas validadas en un sistema integrado. Su excelente rendimiento en la identificación del riesgo de EPOC resalta la promesa de la IA para mejorar el diagnóstico temprano y la toma de decisiones personalizada sin necesidad de una laboriosa selección manual de datos.
  
  El trabajo futuro debe centrarse en la validación prospectiva en diversos entornos sanitarios, refinando la especificidad mediante la calibración de umbrales y ampliando el alcance de PANDORA a otras enfermedades y su compatibilidad con múltiples idiomas. Con la supervisión humana continua y las actualizaciones del modelo, estas innovaciones tienen un gran potencial para optimizar los flujos de trabajo, reducir los retrasos en el diagnóstico y mejorar los resultados de los pacientes a nivel mundial.
  
  Referencia: Jiménez D, Castaño-Villegas N, Llano I, Martínez J, Ortiz L, Velasquez L, Zea J. PANDORA: Un modelo de IA para la extracción automática de datos clínicos no estructurados y la implementación de puntuaciones de riesgo clínico. Conferencia IEEE sobre Inteligencia Artificial (CAI) de 2025. DOI: 10.1109/CAI64502.2025.00280

PANDORA: Aprovechamiento de grandes modelos de lenguaje para automatizar la extracción de datos clínicos y la evaluación del riesgo de EPOC con una precisión casi perfecta

Introducción: Desbloqueando el conocimiento a partir de textos clínicos no estructurados

Contexto del estudio y colaboración

Diseño y metodología del estudio

Clave Resultados

Interpretación e implicaciones clínicas

Implementación y escalabilidad

Conclusión y futuras direcciones