Pacientes e clínicos: os LLMs alcançam alta precisão de controle de qualidade, mas requerem avaliação humana para segurança clínica

Revisão: LLMs têm alta pontuação em QA, mas precisam de avaliação humana em tempo real para uso clínico seguro.

15 de agosto de 2025by Jose Zea

Avançando na Avaliação de Modelos de Linguagem Ampla e Agentes Conversacionais na Saúde – Uma Revisão Abrangente Revela os Principais Desafios de Avaliação e Estratégias Emergentes

À medida que tecnologias de Inteligência Artificial (IA), como Modelos de Linguagem Ampla (LLMs) e Agentes Conversacionais (CAs), entram rapidamente na área da saúde, seu potencial para aprimorar a tomada de decisões clínicas e o suporte ao paciente é enorme. No entanto, garantir que essas ferramentas de IA sejam seguras, precisas e eficazes exige uma avaliação rigorosa — algo com que a área ainda luta. Uma nova revisão abrangente da literatura, realizada por pesquisadores da Arkangel AI, lança luz sobre o panorama atual das avaliações de LLM e CA em ambientes clínicos, destacando os métodos existentes, suas limitações e caminhos promissores para o futuro.

A revisão conclui que, embora conjuntos de dados de perguntas e respostas que simulam exames clínicos continuem sendo o padrão de fato para avaliar o conhecimento e o raciocínio médico, eles não capturam totalmente a segurança do modelo, a eficácia no mundo real ou a qualidade da interação do usuário. A avaliação humana continua sendo crucial, mas consome muitos recursos e é limitada em escala. Os autores defendem a combinação de métricas quantitativas automatizadas com a avaliação humana qualitativa, juntamente com estruturas inovadoras que enfatizam a interação humano-IA no mundo real e a avaliação de riscos à segurança. A análise deles serve como um roteiro para orientar o desenvolvimento e a implantação futuros dessas ferramentas transformadoras de IA.

Parceria e Contexto do Estudo

Esta extensa revisão foi conduzida por uma equipe multidisciplinar da Arkangel AI, incluindo epidemiologistas médicos, engenheiros biomédicos e especialistas em aprendizado de máquina. A pesquisa baseia-se em um amplo espectro de fontes, incluindo periódicos revisados por pares, pré-publicações, anais de congressos e declarações de consenso de especialistas publicadas entre 2015 e 2024. Insights de simpósios globais de saúde e congressos nacionais recentes na Colômbia agregam um contexto valioso, refletindo as prioridades clínicas do mundo real e as necessidades dos usuários.

O cenário é particularmente importante porque reflete uma demanda crescente por estruturas de avaliação de IA confiáveis e adequadas a ambientes clínicos dinâmicos. A equipe da Arkangel AI enfatiza a necessidade de preencher as lacunas entre os rápidos avanços da IA na compreensão da linguagem natural e sua avaliação prática na área da saúde — onde a segurança do paciente, a precisão clínica e as considerações éticas são primordiais.

Desenho e Metodologia do Estudo

O estudo utilizou uma metodologia de revisão de literatura narrativa e não estruturada. Envolveu a análise aprofundada de 40 manuscritos relevantes que abrangeram diversos delineamentos de estudo, como revisões sistemáticas, artigos de consenso de especialistas, editoriais e relatórios técnicos. As bases de dados exploradas incluíram PubMed, Arxiv, MedRxiv e Google Acadêmico, complementadas pela busca de dados de "literatura cinzenta" e de rankings de modelos de IA. O escopo dos métodos de avaliação abrangeu conjuntos de dados de perguntas e respostas automatizadas (QA) e estruturas de avaliação humana (AH).

As principais ferramentas de IA consideradas são LLMs e CAs treinados em conjuntos de dados massivos que abrangem livros-texto clínicos, exames médicos, literatura de pesquisa e diálogos médicos online. Esses modelos utilizam arquiteturas de processamento de linguagem natural como BioBERT, GPT-4, Med-PaLM 2 e outros transformadores aprimorados para simular o conhecimento e o raciocínio clínico.

Principais Resultados

Conjuntos de Dados de Perguntas e Respostas:
- MedQA (baseado em USMLE) – O GPT-4 com Medprompt atingiu uma precisão de até 90,2%, superando modelos anteriores como BioBERTLarge (42,0%) e a pontuação de aprovação humana (60%).
- MedMCQA (baseado na Índia) – O Med-PaLM 2 atingiu uma precisão de 72,3%, em comparação com modelos de última geração de 47% e uma pontuação de aprovação humana de 50%.
- PubMedQA (Resumos Biomédicos) – O GPT-4 com Medprompt obteve uma pontuação de 81,6% precisão, superando o padrão de referência de especialistas humanos de 78%.
- O Subconjunto Clínico MMLU – Med-PaLM 2 obteve pontuação entre 84,4% e 95,8% em diversas especialidades médicas.
- Conjuntos de dados naturalistas como o MeDiaQA avaliam a compreensão conversacional, destacando a expansão da avaliação para além de perguntas e respostas factuais, visando à compreensão do diálogo.
Limitações da Avaliação Automatizada de Garantia da Qualidade:
- A avaliação depende fortemente da especificidade imediata; Os modelos frequentemente apresentam alucinações ou raciocínios incorretos.
- Tarefas padrão de QA não medem a qualidade da comunicação ou a adaptabilidade a diversas entradas do usuário.
- Métricas automatizadas como BLEU e ROUGE não apresentam correlação com o julgamento humano sobre relevância e segurança clínica.
Estruturas de Avaliação Humana:
- A revisão por especialistas humanos continua sendo o padrão ouro para avaliar precisão, relevância e segurança, embora seja custosa e logisticamente desafiadora.
- Estudos que utilizam escalas estruturadas mostram concordância entre avaliadores frequentemente baixa (kappa <0,5), reforçando a complexidade da avaliação.
- Ensaios clínicos em larga escala com humanos, envolvendo médicos e enfermeiros avaliando agentes conversacionais, indicam resultados mistos sobre comportamento à beira do leito, raciocínio clínico e questões de segurança.
- Novas estruturas de avaliação propõem a integração da revisão humana com a pontuação assistida por IA para aumentar a escalabilidade e a consistência.
Perspectivas Emergentes:
- Avaliações de Interação Humana (HIEs) focam na lacuna sociotécnica, medindo o uso no mundo real, os riscos de segurança e a conclusão de tarefas em fluxos de trabalho clínicos.
- Estruturas que abordam a identificação de riscos, o uso contextual e a dinâmica de colaboração entre humanos e IA estão ganhando força para orientar o design e a implantação.
- Abordagens que incentivam a deliberação reflexiva entre humanos e IA mostram-se promissoras para decisões clínicas complexas e de alto risco.

Interpretação e Implicações

Esta revisão apresenta um quadro claro: embora os LLMs tenham alcançado um desempenho notável em respostas a perguntas médicas, rivalizando ou superando os padrões humanos, a avaliação automatizada por si só não garante a segurança ou a usabilidade clínica. A imprevisibilidade do raciocínio dos modelos, a suscetibilidade a vieses e as alucinações frequentes exigem abordagens de avaliação em camadas.

Para médicos e sistemas de saúde, essas descobertas enfatizam que a implantação de ferramentas baseadas em LLM exige uma avaliação robusta e multidimensional, abrangendo não apenas a precisão do conhecimento, mas também o estilo de comunicação, a qualidade da interação e a mitigação de riscos. A combinação de testes automatizados de QA com revisões humanas cuidadosamente projetadas cria um ecossistema de validação equilibrado. Além disso, incorporar cenários de uso do mundo real e insights de interação humana é vital para alcançar uma IA confiável que realmente suporte os fluxos de trabalho clínicos e os resultados dos pacientes.

No entanto, os desafios permanecem: as avaliações humanas exigem muitos recursos e estão sujeitas à variabilidade, enquanto os conjuntos de dados de QA atuais têm escopo limitado e podem não representar completamente os diversos contextos clínicos. O desenvolvimento de instrumentos de avaliação padronizados e validados e a expansão de ensaios práticos em ambientes reais de saúde serão etapas importantes no futuro. Implantação e Escalabilidade Embora os modelos revisados ainda não tenham sido implantados como sistemas autônomos de suporte à decisão clínica, muitos estão integrados a protótipos de agentes conversacionais projetados para profissionais de saúde e pacientes. Os insights da avaliação orientam futuras estratégias de implantação, enfatizando segurança, interpretabilidade e usabilidade. As barreiras identificadas incluem o alto custo e o tempo de uma avaliação humana rigorosa, a dificuldade em escalar avaliações para abranger vastos cenários clínicos e garantir a adaptabilidade a diferentes níveis de conhecimento em saúde e idiomas. Para superá-los, são propostas soluções inovadoras, como avaliação humana assistida por IA, monitoramento contínuo pós-implantação e estruturas modulares de avaliação adaptadas a casos de uso específicos. Além disso, considerando que os LLMs são tecnologias generalizadas, as abordagens de avaliação desenvolvidas aqui têm relevância transversal para outras especialidades médicas, idiomas e sistemas conversacionais de IA emergentes. Essa flexibilidade proporciona maior escalabilidade e integração de longo prazo em diversos ambientes de saúde.

Conclusão e Próximos Passos

A revisão da Arkangel AI destaca que avaliar grandes modelos de linguagem e agentes conversacionais para a área da saúde é um empreendimento complexo e em evolução. Embora os benchmarks existentes de resposta a perguntas forneçam insights valiosos sobre o conhecimento clínico e as capacidades de raciocínio, eles não capturam a segurança, a qualidade da interação ou a eficácia no mundo real de forma abrangente.

A avaliação humana continua essencial, mas deve ser complementada por métricas e estruturas escaláveis e objetivas, com foco na colaboração entre humanos e IA e nos riscos específicos do contexto. As prioridades futuras de pesquisa incluem o desenvolvimento de protocolos de avaliação padronizados, a adaptação das avaliações a diversos ambientes clínicos e usuários, e a incorporação da avaliação contínua em ferramentas de IA implantadas para garantir segurança e eficácia contínuas. À medida que os LLMs avançam e a adoção da IA na área da saúde cresce, a construção de infraestruturas de avaliação robustas e multifacetadas será fundamental para liberar todo o potencial dos agentes conversacionais, protegendo pacientes e médicos. Para líderes em inovação na área da saúde, esta síntese abrangente fornece uma base para projetar, validar e implantar ferramentas de IA conversacionais confiáveis que atendem aos mais altos padrões clínicos. Referência: Castano-Villegas N, Llano I, Martinez J, Jimenez D, Villa MC, Zea J, Velasquez L. "Abordagens para Avaliar Modelos de Linguagem Ampla e Agentes Conversacionais para Aplicações na Área da Saúde." Arkangel AI, 2024. [Texto completo disponível mediante solicitação.]