O PANDORA LLM automatiza a detecção de risco de DPOC com extração quase perfeita e precisão de 94% do PUMA
LLM autoextraído UTI/ambulatorial (~100%) e PUMA aplicado: precisão de pontuação de 94%; sensibilidade de 100%
PANDORA: Aproveitando Grandes Modelos de Linguagem para Automatizar a Extração de Dados Clínicos e a Avaliação de Risco de DPOC com Precisão Quase Perfeita
Na área da saúde moderna, grandes quantidades de informações valiosas sobre pacientes permanecem presas em anotações clínicas não estruturadas, limitando seu uso eficaz para diagnóstico, estratificação de risco e pesquisa. O inovador sistema de IA PANDORA utiliza Modelos de Linguagem Ampla (LLMs) avançados para extrair automaticamente características clínicas importantes de documentos médicos brutos e aplicar uma pontuação de risco validada — demonstrada aqui com a busca de casos de Doença Pulmonar Obstrutiva Crônica (DPOC) — e fornecer recomendações com precisão notável.
Neste estudo pioneiro, pesquisadores da Arkangel AI em Bogotá, Colômbia, validaram o desempenho do PANDORA usando notas complexas de alta da UTI do banco de dados MIMIC-IV e casos ambulatoriais gerados sinteticamente. O sistema alcançou uma precisão quase perfeita na extração de dados (100% nas notas MIMIC e 99,6% nos prontuários sintéticos) e aplicou corretamente a pontuação de triagem PUMA para DPOC com 94% de precisão, identificando pacientes em risco de DPOC com sensibilidades de até 100%. Esses resultados demonstram o potencial da PANDORA para transformar textos clínicos não estruturados em insights acionáveis, fechando uma lacuna crítica na utilização de dados de saúde no mundo real.
Introdução: Desvendando o Conhecimento a Partir de Textos Clínicos Não Estruturados
Os prontuários clínicos são a espinha dorsal do atendimento ao paciente, mas até 80% dos dados que eles contêm existem em formatos não estruturados, como anotações médicas, resumos de alta e relatórios narrativos. Essas informações em "texto livre" contêm insights cruciais — histórico de sintomas, tabagismo, resultados de exames e muito mais — que historicamente exigem muito trabalho para serem extraídos e incorporados aos fluxos de trabalho de tomada de decisão. Esse gargalo resulta em oportunidades perdidas de diagnóstico precoce, gestão da saúde da população e viés de pesquisa devido a conjuntos de dados incompletos.
Os métodos tradicionais para o aproveitamento de dados não estruturados dependem de revisões manuais de prontuários ou de sistemas de processamento de linguagem natural (PLN) baseados em regras, com adaptabilidade limitada. Enquanto isso, avanços recentes em LLMs, que compreendem contexto e terminologia médica em alto nível, abriram uma nova fronteira para a extração escalável e precisa de informações diretamente de textos clínicos brutos.
Entra o PANDORA: uma estrutura modular de IA composta por dois agentes LLM sincronizados, projetada para extrair características clínicas relevantes de prontuários eletrônicos de saúde (PEs) não estruturados e implementar automaticamente pontuações de risco clínico com base nessas características. Neste estudo, o foco foi a avaliação de risco de DPOC por meio da ferramenta de triagem PUMA, que já está estabelecida, testando o quão bem o PANDORA consegue replicar a extração de dados em nível especializado e a precisão da pontuação usando dados clínicos reais e sintéticos.
Contexto e Parceria do Estudo
Este estudo foi conduzido pela equipe de IA da Arkangel em Bogotá, Colômbia, refletindo um esforço crescente na América Latina para utilizar ferramentas de IA adaptadas às necessidades regionais de saúde. A decisão de focar na DPOC decorre de sua alta prevalência em todo o mundo — particularmente na América Latina — com taxas substanciais de subdiagnóstico, estimadas em até 89%. A identificação precoce e precisa do risco de DPOC continua sendo uma necessidade urgente e não atendida, tanto em ambientes ambulatoriais quanto em unidades de terapia intensiva.
A inclusão do conjunto de dados MIMIC-IV, que compreende notas detalhadas de alta da UTI de um importante centro médico acadêmico dos EUA, garante que o modelo foi testado em documentação clínica complexa e real, representativa de casos graves de doenças. Complementando isso, prontuários ambulatoriais gerados sinteticamente, modelados a partir de consultas de atenção primária na Colômbia, expandiram a avaliação para cenários clínicos mais típicos e diversos.
Desenho e Metodologia do Estudo
O sistema PANDORA consiste em duas fases principais:
- Fase de Extração: Um módulo baseado em LLM processa texto não estruturado do prontuário eletrônico do paciente (PEP) para extrair características clínicas predefinidas relevantes para o risco de DPOC, como histórico de tabagismo, cronicidade dos sintomas e diagnósticos anteriores.
- Fase de Pontuação e Recomendação: Usando os dados extraídos, um segundo LLM aplica o escore PUMA para DPOC — uma calculadora clínica validada de 7 critérios que determina a necessidade de espirometria — e gera uma classificação binária de risco para DPOC (positiva se o escore for ≥5).
Fontes de dados incluídas:
- Banco de dados MIMIC-IV: 615 QA avaliados Pares de notas de alta abrangendo 2002 a 2019 em registros de pacientes da UTI do Beth Israel Deaconess Medical Center.
- Prontuários clínicos ambulatoriais sintéticos: 700 pares de QA gerados com tecnologia GPT seguindo os padrões colombianos de documentação clínica para simular diversos diagnósticos diferenciais de DPOC.
Métricas de avaliação focadas em:
- Precisão da Extração: Identificação correta de características clínicas a partir de texto não estruturado, comparado com pares de QA validados por especialistas.
- Precisão da Pontuação: Cálculo correto do escore de risco PUMA para DPOC a partir de dados extraídos.
- Desempenho da Recomendação: Sensibilidade, especificidade, precisão, exatidão, escore F1 e Kappa de Cohen para classificação de risco de DPOC.
Chave Resultados
- Fase de Extração:
- 100% de precisão para as notas de alta MIMIC (615 pares de QA).
- 99,6% de precisão para prontuários ambulatoriais gerados sinteticamente (700 pares de QA).
- Fase de Pontuação:
- 94,5% de precisão no cálculo das pontuações PUMA com base nos dados MIMIC.
- 94,1% de precisão nas pontuações de casos sintéticos.
- Fase de Recomendação (classificação de risco de DPOC):
- Sensibilidade: 85,5% (MIMIC com histórico de DPOC considerado), 19,4% (MIMIC sem histórico) e 100% (casos sintéticos).
- Especificidade: 70% (MIMIC com histórico), 92,5% (MIMIC sem histórico), mas apenas 20% (casos sintéticos).
- Precisão geral: 79,4% (MIMIC com histórico), 48,0% (MIMIC sem histórico) e 36,0% (casos sintéticos).
- A inclusão do diagnóstico prévio de DPOC como característica melhorou drasticamente a sensibilidade em 66%, mas reduziu a especificidade em 22,5%.
Interpretação e Implicações Clínicas
A capacidade da PANDORA de atingir uma precisão de extração quase perfeita em textos clínicos altamente heterogêneos e não estruturados é um avanço significativo, demonstrando que grandes modelos de linguagem podem identificar de forma confiável elementos clínicos essenciais sem pré-processamento ou entrada estruturada. Esse recurso, por si só, poderia reduzir drasticamente o esforço manual tradicionalmente necessário para a abstração de dados do prontuário eletrônico do paciente (EHR).
Mais importante ainda, a integração do sistema com uma ferramenta de triagem de DPOC validada (PUMA) e sua alta precisão na replicação da estratificação de risco sinalizam uma nova era em que a IA pode conectar perfeitamente a extração de texto com o suporte à decisão clínica baseado em evidências. Na prática, isso significa que os médicos podem receber alertas automatizados sobre pacientes em risco de DPOC durante a revisão de prontuários de rotina, facilitando a realização de testes espirométricos oportunos e o diagnóstico precoce.
As diferenças observadas na especificidade entre o conjunto de dados MIMIC, com uso intensivo de UTI, e os prontuários ambulatoriais sintéticos destacam a importância de contextualizar as ferramentas de IA às populações de pacientes e aos ambientes clínicos onde são implantadas. A alta sensibilidade, mas a especificidade reduzida, do PANDORA em ambientes ambulatoriais sintéticos refletem o design inerente da PUMA para priorizar a detecção de casos em detrimento de falsos negativos, adequado para triagem oportunista, mas que requer calibração em populações mais amplas.
Além disso, a incorporação do histórico conhecido de DPOC na avaliação de risco melhorou substancialmente as capacidades de detecção, um exemplo de como a combinação de dados extraídos com a lógica clínica aumenta a utilidade do modelo.
Implantação e Escalabilidade
A arquitetura modular do PANDORA permite a integração direta em sistemas de prontuários eletrônicos de hospitais ou plataformas de software clínico ambulatorial. Ele pode processar anotações clínicas em tempo real ou em lote, permitindo que os profissionais de saúde apresentem rapidamente informações importantes e recomendações baseadas em diretrizes. Potenciais barreiras à implantação incluem a variabilidade nos estilos de documentação do prontuário eletrônico de saúde (PEP) entre instituições e países, a disponibilidade variável de recursos críticos (por exemplo, histórico de tabagismo frequentemente redigido em conjuntos de dados desidentificados) e a necessidade de supervisão humana contínua para lidar com vieses e erros de LLM. No entanto, a dependência do PANDORA em escores clínicos universalmente validados, como o PUMA, permite adaptabilidade: ao substituir ou adicionar outras ferramentas validadas específicas para cada doença, o sistema pode ser expandido para rastrear ou gerenciar múltiplas condições além da DPOC, incluindo risco cardiovascular, diabetes e doenças infecciosas. Conclusão e Direções Futuras O PANDORA representa um passo pioneiro na aplicação de grandes modelos de linguagem para extração automatizada de dados clínicos não estruturados e na aplicação de escores clínicos validados em um sistema integrado. Seu excelente desempenho na identificação de risco de DPOC destaca a promessa da IA em aprimorar o diagnóstico precoce e a tomada de decisões personalizadas, sem a necessidade de uma curadoria manual trabalhosa de dados. Trabalhos futuros devem se concentrar na validação prospectiva em diversos cenários de saúde, refinando a especificidade por meio da calibração de limiares e expandindo o escopo do PANDORA para outras doenças e recursos multilíngues. Com supervisão humana contínua e atualizações de modelos, essas inovações têm grande potencial para otimizar fluxos de trabalho, reduzir atrasos no diagnóstico e melhorar os resultados dos pacientes em todo o mundo. Referência: Jimenez D, Castano-Villegas N, Llano I, Martinez J, Ortiz L, Velasquez L, Zea J. PANDORA: Um modelo de IA para extração automática de dados clínicos não estruturados e implementação de escore de risco clínico. Conferência IEEE de 2025 sobre Inteligência Artificial (CAI). DOI: 10.1109/CAI64502.2025.00280.