Arkangel AI, OpenEvidence, ChatGPT y Medisearch evaluados frente a estándares médicos
Estudio revisado por pares de 2026 compara cuatro agentes conversacionales en 128 pares P/R y 1024 evaluaciones expertas.
Arkangel AI, OpenEvidence, ChatGPT y Medisearch evaluados frente a estándares médicos
Original title: Arkangel AI, OpenEvidence, ChatGPT, Medisearch: Are They Objectively up to Medical Standards?
Authors: Arkangel AI and collaborators
Venue: Mayo Clinic Proceedings: Digital Health, 2026
Status: Peer-reviewed, published
Headline metrics: Overall satisfaction range across agents 71.1% to 93% (Kruskal-Wallis P<.001); reference authenticity reached 100% satisfaction for Arkangel AI-Deep, ChatGPT-Deep, and OpenEvidence; ChatGPT modes rated unsatisfactory in 75–97% of evaluator pairs; median response times 18 seconds to 12.8 minutes (Wilcoxon P<.05)
Este estudio revisado por pares de Mayo Clinic Proceedings: Digital Health comparó Arkangel AI, OpenEvidence, ChatGPT y Medisearch en cuatro viñetas clínicas y cuatro tipos de pregunta. El diseño generó 128 pares de pregunta/respuesta y 1024 evaluaciones expertas con una escala Likert de ocho criterios.
La satisfacción general osciló entre 71.1% to 93% entre agentes (Kruskal-Wallis P<.001). La autenticidad de referencias alcanzó 100% de satisfacción para Arkangel AI-Deep, ChatGPT-Deep y OpenEvidence. Los modos de ChatGPT fueron calificados como insatisfactorios en 75–97% de los pares evaluadores, y las medianas de respuesta fueron de 18 segundos a 12.8 minutos (Wilcoxon P<.05).
Source
https://www.mcpdigitalhealth.org/article/S2949-7612(26)00022-2/fulltext