Aprende cómo el procesamiento de lenguaje natural en salud está transformando la investigación médica y cómo Pandora optimiza la extracción de datos no estructurados.
Según un análisis de Health Catalyst, el procesamiento del lenguaje natural (PLN) ha permitido a investigadores y médicos convertir grandes volúmenes de texto no estructurado en datos útiles y accesibles. Este tipo de texto, que incluye historias clínicas electrónicas, notas clínicas e informes de laboratorio, constituye alrededor del 80% de los datos de los pacientes. Con el uso de la PNL es posible extraer información valiosa para la toma de decisiones clínicas y el análisis predictivo (Health Catalyst). Entre las innovaciones más destacadas en este campo se encuentra la creación de Pandora, desarrollado por Arkangel AI, un modelo de lenguaje diseñado específicamente para la extracción y estructuración de datos médicos.
En medicina, gran parte de la información relevante se encuentra en registros médicos, notas de alta y otros documentos en texto plano. Esto complica el análisis de datos y ralentiza la toma de decisiones basadas en la evidencia. El procesamiento manual de esta información es lento, costoso y propenso a errores. Con NLP es posible automatizar el análisis de textos complejos y generar datos estructurados aprovechables en la práctica clínica y la investigación.
Pandora: Un avance en la estructuración de datos médicos
Pandora es un modelo de IA generativo que procesa lenguaje natural facilitandola extracción y estructuración de información a partir de fuentes desestructuradas. Pandora fue diseñada específicamente para superar los desafíos inherentes al manejo de grandes volúmenes de datos médicos no etiquetados y de difícil acceso. Este modelo está equipado con dos algoritmos clave que trabajan de manera conjunta para recuperar información y ofrecer recomendaciones de acuerdo con la escala o guía clinica usada sobre la información extraida, determinada por el investigador. validadas.
El funcionamiento de Pandora tiene dos fases principales:
Para validar su efectividad, Pandora se probó utilizando dos fuentes principales de datos: la base de datos MIMIC-IV-Note, que recopila notas médicas anonimizadas, y una base de 100 historias clínicas sintéticas generadas por AI a partir de una guia con 9 casos clínicos hipoteticos, en el contexto de una consulta extarna, siguiendo los lineamientos del ministerio de salud Colmbiano. Aplicamos evaluación humana a cada uno de los casos para evaluar las capacidades de extracción de datos, aplicación de una escala de riesgo y generación de recomendaciones del modelo.
Para la extracción decidimos usar la escala PUMA, validada en varios paises de latinoamerica para la evaluación del riesgo y búsqueda de casos en la Enfermedad Pulmonar Obstructiva Crónica (EPOC).
La recomendación con relacion al riesgo de EPOC, basada en el puntaje de PUMA tuvo una sensibilidad del 100% en los casos sintéticos y del 89% en MIMIC y del 89% en los casos reales. Sin embargo la especificidad fue menor de 80% ara ambas.
Durante el proceso de validación, Pandora mostró una buena capacidad de extracción y uso de la calculadora PUMA para la extracción en MIMIC y en casos sintéticos. La baja especificidad se debe a que la calculadora PUMA es una herramienta muy sensible , pero poco específica para la búsqueda de casos y teniendo en cuenta que todos los casos usados en el modelo (MIMIC y Sinteticos) tienen pacientes con enfermedades cardiorrespiratorias, la calculadora clasificó muchos de los diagnósticos diferenciales como EPOC. Este resultado sugiere que la calculadora PUMA puede no ser completamente adecuada para la población usada o que usar un punto de corte mayor brinde mejores resultados lo que puede ser explorado en un estudio posterior. A pesar de ello, Pandora demostró ser una herramienta eficaz para la extracción de datos clínicos e implementación de una calculadora de riesgo PUMA, con potencial para ser adaptada a diferentes escenarios clínicos que requieran diferentes mediciones de riesgo.
El desarrollo de Pandora marca un hito en el uso del procesamiento de lenguaje natural en salud. A medida que esta tecnología continúe evolucionando, se espera que pueda aplicarse a una mayor variedad de enfermedades y escalas clínicas, aprovechando su arquitectura modular y su capacidad de mejora continua. Además, futuras investigaciones podrían ampliar la validación de Pandora utilizando datos del mundo real, optimizando su precisión y especificidad en diferentes contextos médicos.
Ingresa a nuestro paper en: https://app.hubspot.com/documents/8676854/view/881078300?accessId=193a29