O Impacto do processamento de linguagem natural na Saúde e o desenvolvimento da Pandora

De acordo com uma análise da Health Catalyst, o Processamento de Linguagem Natural (PLN) permitiu que pesquisadores e médicos convertessem grandes volumes de texto não estruturado em dados úteis e acessíveis. Esse tipo de texto, que inclui registros eletrônicos de saúde, notas clínicas e relatórios laboratoriais, constitui cerca de 80% dos dados dos pacientes. Com o uso do PLN, é possível extrair informações valiosas para a tomada de decisões clínicas e análises preditivas (Health Catalyst). Entre as inovações mais proeminentes neste campo está a criação da Pandora, desenvolvida pela Arkangel AI, um modelo de linguagem especificamente projetado para a extração e estruturação de dados médicos.

‍

Workflow structure Pandora: Tomado de: https://app.hubspot.com/documents/8676854/view/881078300?accessId=193a29

‍

O desafio dos dados não estruturados

Na medicina, grande parte da informação relevante encontra-se em registros médicos, notas de alta e outros documentos em texto simples. Isso complica a análise de dados e atrasa a tomada de decisões baseadas em evidências. O processamento manual dessa informação é lento, caro e propenso a erros. Com o PLN (Processamento de Linguagem Natural), é possível automatizar a análise de textos complexos e gerar dados estruturados úteis para a prática clínica e a pesquisa.

Pandora: Um avanço na estruturação de dados médicos

Pandora é um modelo de IA generativo que processa linguagem natural, facilitando a extração e estruturação de informações a partir de fontes não estruturadas. Pandora foi projetada especificamente para superar os desafios inerentes ao manejo de grandes volumes de dados médicos não rotulados e de difícil acesso. Este modelo está equipado com dois algoritmos-chave que trabalham em conjunto para recuperar informações e oferecer recomendações de acordo com a escala ou diretriz clínica utilizada sobre a informação extraída, determinada pelo pesquisador.

Como funciona a Pandora?

O funcionamento da Pandora tem duas fases principais:

Extração de informação: O primeiro algoritmo da Pandora dedica-se a extrair informações relevantes de histórias clínicas e outros documentos médicos não estruturados. Utilizando uma combinação de técnicas de PLN e aprendizado de máquina, Pandora é capaz de processar texto não formatado e convertê-lo em dados organizados e fáceis de analisar. Isso permite que médicos e pesquisadores acessem informações-chave de maneira mais rápida e precisa.
Geração de recomendações diagnósticas: O segundo algoritmo da Pandora concentra-se em utilizar os dados extraídos para aplicar ferramentas e escalas validadas para produzir uma recomendação final. Um exemplo é a calculadora PUMA, que foi validada para a avaliação de risco de DPOC.

Avaliação humana do desempenho da escala

Para validar sua eficácia, Pandora foi testada utilizando duas fontes principais de dados: o banco de dados MIMIC-IV-Note, que reúne notas médicas anonimizadas, e uma base de 100 histórias clínicas sintéticas geradas por IA a partir de um guia com 9 casos clínicos hipotéticos, no contexto de uma consulta ambulatorial, seguindo as diretrizes do Ministério da Saúde colombiano. Aplicamos avaliação humana a cada um dos casos para avaliar as capacidades de extração de dados, aplicação de uma escala de risco e geração de recomendações do modelo.

Para a extração, decidimos usar a escala PUMA, validada em vários países da América Latina para a avaliação de risco e busca de casos na Doença Pulmonar Obstrutiva Crônica (DPOC).

A recomendação em relação ao risco de DPOC, baseada na pontuação PUMA, teve uma sensibilidade de 100% nos casos sintéticos e de 89% no MIMIC e 89% nos casos reais. No entanto, a especificidade foi menor que 80% para ambos.

Interpretação dos resultados

Durante o processo de validação, Pandora mostrou uma boa capacidade de extração e uso da calculadora PUMA para extração no MIMIC e em casos sintéticos. A baixa especificidade se deve ao fato de que a calculadora PUMA é uma ferramenta muito sensível, mas pouco específica para a busca de casos, e considerando que todos os casos usados no modelo (MIMIC e Sintéticos) têm pacientes com doenças cardiorrespiratórias, a calculadora classificou muitos dos diagnósticos diferenciais como DPOC.

Este resultado sugere que a calculadora PUMA pode não ser completamente adequada para a população usada ou que usar um ponto de corte maior possa fornecer melhores resultados, o que pode ser explorado em um estudo posterior. Apesar disso, Pandora demonstrou ser uma ferramenta eficaz para a extração de dados clínicos e implementação de uma calculadora de risco PUMA, com potencial para ser adaptada a diferentes cenários clínicos que requerem diferentes medições de risco.

Futuro do processamento de linguagem natural em saúde e Pandora

O desenvolvimento da Pandora marca um marco no uso do processamento de linguagem natural em saúde. À medida que essa tecnologia continua evoluindo, espera-se que possa ser aplicada a uma maior variedade de doenças e escalas clínicas, aproveitando sua arquitetura modular e sua capacidade de melhoria contínua. Além disso, pesquisas futuras poderiam ampliar a validação da Pandora utilizando dados do mundo real, otimizando sua p

‍

Ingresa a nuestro paper en: https://app.hubspot.com/documents/8676854/view/881078300?accessId=193a29

O Impacto do Processamento de Linguagem Natural na Saúde e o Desenvolvimento da Pandora