Arkangel AI, OpenEvidence, ChatGPT e Medisearch avaliados frente a padrões médicos

Estudo revisado por pares de 2026 compara quatro agentes conversacionais em 128 pares P/R e 1024 avaliações de especialistas.

21 de maio de 2026por Jose Zea

Read the paper →

Arkangel AI, OpenEvidence, ChatGPT e Medisearch avaliados frente a padrões médicos

Original title: Arkangel AI, OpenEvidence, ChatGPT, Medisearch: Are They Objectively up to Medical Standards?

Authors: Arkangel AI and collaborators

Venue: Mayo Clinic Proceedings: Digital Health, 2026

Status: Peer-reviewed, published

Headline metrics: Overall satisfaction range across agents 71.1% to 93% (Kruskal-Wallis P<.001); reference authenticity reached 100% satisfaction for Arkangel AI-Deep, ChatGPT-Deep, and OpenEvidence; ChatGPT modes rated unsatisfactory in 75–97% of evaluator pairs; median response times 18 seconds to 12.8 minutes (Wilcoxon P<.05)

Este estudo revisado por pares no Mayo Clinic Proceedings: Digital Health comparou Arkangel AI, OpenEvidence, ChatGPT e Medisearch em quatro vinhetas clínicas e quatro tipos de pergunta. O desenho gerou 128 pares pergunta/resposta e 1024 avaliações de especialistas com escala Likert de oito critérios.

A satisfação geral variou de 71.1% to 93% entre agentes (Kruskal-Wallis P<.001). A autenticidade das referências atingiu 100% de satisfação para Arkangel AI-Deep, ChatGPT-Deep e OpenEvidence. Modos do ChatGPT foram classificados como insatisfatórios em 75–97% dos pares avaliadores, e os tempos medianos de resposta variaram de 18 segundos a 12.8 minutos (Wilcoxon P<.05).

Source

https://www.mcpdigitalhealth.org/article/S2949-7612(26)00022-2/fulltext