Arkangel AI, OpenEvidence, ChatGPT et Medisearch évalués face aux standards médicaux
Étude 2026 relue par les pairs comparant quatre agents conversationnels sur 128 paires Q/R et 1024 évaluations expertes.
Arkangel AI, OpenEvidence, ChatGPT et Medisearch évalués face aux standards médicaux
Original title: Arkangel AI, OpenEvidence, ChatGPT, Medisearch: Are They Objectively up to Medical Standards?
Authors: Arkangel AI and collaborators
Venue: Mayo Clinic Proceedings: Digital Health, 2026
Status: Peer-reviewed, published
Headline metrics: Overall satisfaction range across agents 71.1% to 93% (Kruskal-Wallis P<.001); reference authenticity reached 100% satisfaction for Arkangel AI-Deep, ChatGPT-Deep, and OpenEvidence; ChatGPT modes rated unsatisfactory in 75–97% of evaluator pairs; median response times 18 seconds to 12.8 minutes (Wilcoxon P<.05)
Cette étude relue par les pairs dans Mayo Clinic Proceedings: Digital Health a comparé Arkangel AI, OpenEvidence, ChatGPT et Medisearch sur quatre vignettes cliniques et quatre types de questions. Le protocole a produit 128 paires question/réponse et 1024 évaluations expertes avec une échelle de Likert à huit critères.
La satisfaction globale allait de 71.1% to 93% selon les agents (Kruskal-Wallis P<.001). L’authenticité des références a atteint 100 % de satisfaction pour Arkangel AI-Deep, ChatGPT-Deep et OpenEvidence. Les modes ChatGPT ont été jugés insatisfaisants dans 75–97 % des paires d’évaluateurs, et les temps médians de réponse allaient de 18 secondes à 12.8 minutes (Wilcoxon P<.05).
Source
https://www.mcpdigitalhealth.org/article/S2949-7612(26)00022-2/fulltext