El impacto del procesamiento de lenguaje natural en salud y el desarrollo de Pandora

Según un análisis de Health Catalyst, el procesamiento del lenguaje natural (PLN) ha permitido a investigadores y médicos convertir grandes volúmenes de texto no estructurado en datos útiles y accesibles. Este tipo de texto, que incluye historias clínicas electrónicas, notas clínicas e informes de laboratorio, constituye alrededor del 80% de los datos de los pacientes. Con el uso de la PNL es posible extraer información valiosa para la toma de decisiones clínicas y el análisis predictivo (Health Catalyst). Entre las innovaciones más destacadas en este campo se encuentra la creación de Pandora, desarrollado por Arkangel AI, un modelo de lenguaje diseñado específicamente para la extracción y estructuración de datos médicos.

‍

Workflow structure Pandora: Tomado de: https://app.hubspot.com/documents/8676854/view/881078300?accessId=193a29

‍

El reto de los datos no estructurados

En medicina, gran parte de la información relevante se encuentra en registros médicos, notas de alta y otros documentos en texto plano. Esto complica el análisis de datos y ralentiza la toma de decisiones basadas en la evidencia. El procesamiento manual de esta información es lento, costoso y propenso a errores. Con NLP es posible automatizar el análisis de textos complejos y generar datos estructurados aprovechables en la práctica clínica y la investigación.

Pandora: Un avance en la estructuración de datos médicos

Pandora es un modelo de IA generativo que procesa lenguaje natural facilitandola extracción y estructuración de información a partir de fuentes desestructuradas. Pandora fue diseñada específicamente para superar los desafíos inherentes al manejo de grandes volúmenes de datos médicos no etiquetados y de difícil acceso. Este modelo está equipado con dos algoritmos clave que trabajan de manera conjunta para recuperar información y ofrecer recomendaciones de acuerdo con la escala o guía clinica usada sobre la información extraida, determinada por el investigador. validadas.

¿Cómo funciona Pandora?

El funcionamiento de Pandora tiene dos fases principales:

Extracción de información: El primer algoritmo de Pandora se dedica a extraer información relevante de historias clínicas y otros documentos médicos no estructurados. Utilizando una combinación de técnicas de NLP (técnicas del procesamiento del lenguaje natural) y aprendizaje automático, Pandora es capaz de procesar texto sin formato y convertirlo en datos organizados y fáciles de analizar. Esto permite a los médicos e investigadores acceder a información clave de manera más rápida y precisa.
Generación de recomendaciones diagnósticas: El segundo algoritmo de Pandora se enfoca en utilizar los datos extraídos para aplicar herramientas y escalas validadas para producir una recomendación final. Un ejemplo es la calculadora PUMA, que se ha validado para la evaluación de riesgo de EPOC.

Evaluación humana del rendimiento de la escala

Para validar su efectividad, Pandora se probó utilizando dos fuentes principales de datos: la base de datos MIMIC-IV-Note, que recopila notas médicas anonimizadas, y una base de 100 historias clínicas sintéticas generadas por AI a partir de una guia con 9 casos clínicos hipoteticos, en el contexto de una consulta extarna, siguiendo los lineamientos del ministerio de salud Colmbiano. Aplicamos evaluación humana a cada uno de los casos para evaluar las capacidades de extracción de datos, aplicación de una escala de riesgo y generación de recomendaciones del modelo.

Para la extracción decidimos usar la escala PUMA, validada en varios paises de latinoamerica para la evaluación del riesgo y búsqueda de casos en la Enfermedad Pulmonar Obstructiva Crónica (EPOC).

La recomendación con relacion al riesgo de EPOC, basada en el puntaje de PUMA tuvo una sensibilidad del 100% en los casos sintéticos y del 89% en MIMIC y del 89% en los casos reales. Sin embargo la especificidad fue menor de 80% ara ambas.

Interpretación de resultados

Durante el proceso de validación, Pandora mostró una buena capacidad de extracción y uso de la calculadora PUMA para la extracción en MIMIC y en casos sintéticos. La baja especificidad se debe a que la calculadora PUMA es una herramienta muy sensible , pero poco específica para la búsqueda de casos y teniendo en cuenta que todos los casos usados en el modelo (MIMIC y Sinteticos) tienen pacientes con enfermedades cardiorrespiratorias, la calculadora clasificó muchos de los diagnósticos diferenciales como EPOC. Este resultado sugiere que la calculadora PUMA puede no ser completamente adecuada para la población usada o que usar un punto de corte mayor brinde mejores resultados lo que puede ser explorado en un estudio posterior. A pesar de ello, Pandora demostró ser una herramienta eficaz para la extracción de datos clínicos e implementación de una calculadora de riesgo PUMA, con potencial para ser adaptada a diferentes escenarios clínicos que requieran diferentes mediciones de riesgo.

Futuro del procesamiento de lenguaje natural en salud y Pandora

El desarrollo de Pandora marca un hito en el uso del procesamiento de lenguaje natural en salud. A medida que esta tecnología continúe evolucionando, se espera que pueda aplicarse a una mayor variedad de enfermedades y escalas clínicas, aprovechando su arquitectura modular y su capacidad de mejora continua. Además, futuras investigaciones podrían ampliar la validación de Pandora utilizando datos del mundo real, optimizando su precisión y especificidad en diferentes contextos médicos.

Ingresa a nuestro paper en: https://app.hubspot.com/documents/8676854/view/881078300?accessId=193a29