El agente multi-LLM en tiempo real de Arkangel AI responde las preguntas médicas de los médicos con un 90 % de precisión.
Arkangel AI: el sistema de recuperación de múltiples LLM brinda respuestas médicas basadas en evidencia con un 90 % de precisión.
Arkangel AI: Aprovechamiento de grandes modelos de lenguaje para la respuesta a preguntas médicas en tiempo real, basada en la evidencia, con un 90 % de precisión
En un panorama sanitario saturado por la rápida expansión del conocimiento médico, los profesionales sanitarios a menudo tienen dificultades para acceder a información oportuna, relevante y fiable durante la toma de decisiones. Los métodos tradicionales de respuesta a preguntas médicas dependen en gran medida de bases de datos estáticas o de la experiencia individual, lo que puede limitar la velocidad y la exhaustividad. Para abordar este desafío, Arkangel AI presenta un agente conversacional impulsado por múltiples modelos de lenguaje extenso (LLM), diseñado para brindar respuestas en tiempo real y basadas en evidencia a consultas médicas complejas con una precisión excepcional.
Al aprovechar una innovadora arquitectura multi-LLM, combinada con la recuperación de información en tiempo real de fuentes confiables como PubMed y Google, Arkangel AI alcanza una notable precisión del 90,26 % en el riguroso estándar MedQA, superando a muchos LLM médicos de vanguardia actuales. Este avance destaca el potencial de los asistentes de investigación asistidos por IA para optimizar el razonamiento clínico, optimizar los flujos de trabajo y mejorar el acceso a conocimiento médico comprobado.
Presentamos Arkangel AI: Una innovación colombiana a la vanguardia de la IA médica
Desarrollado por un equipo multidisciplinario con sede en Bogotá, Colombia, en Arkangel AI, este modelo refleja el creciente impulso global por soluciones de IA que satisfagan las necesidades de salud relevantes a nivel regional. Colombia, al igual que muchos países, enfrenta disparidades en el acceso a guías clínicas y literatura científica actualizadas, lo que hace vital la síntesis rápida de información médica confiable.
El equipo de desarrollo se propuso crear una herramienta que no solo procesara consultas clínicas y de investigación complejas, sino que también admitiera interacciones multilingües en inglés, español y portugués, cruciales para médicos e investigadores latinoamericanos. Este enfoque, adaptado cultural y lingüísticamente, garantiza una mayor aplicabilidad y usabilidad en diversos entornos clínicos.
Diseño y metodología del estudio: Arquitectura multi-LLM con validación rigurosa
El estudio evaluó el rendimiento de Arkangel AI en dos conjuntos de datos extensos y reconocidos de preguntas médicas: MedQA (1273 preguntas de examen USMLE) y PubMedQA (500 preguntas de investigación biomédica evaluadas por personas). Los datos abarcaron diversas especialidades y subcampos médicos, recopilados hasta principios de 2025.
La arquitectura de Arkangel AI integra cinco LLM interconectados que operan dentro de un marco de Recuperación-Generación Aumentada (RAG). Este sistema recupera dinámicamente documentos relevantes a través de las API de Google y PubMed, y luego procesa y resume la información para generar respuestas contextualmente precisas. Específicamente:
- LLM 1 y 2: Clasificar el tipo de consulta y optimizar la estrategia de búsqueda.
- Módulo RAG: Recupera los diez documentos más relevantes por consulta, filtrados por calidad y seguridad.
- LLM 3 y 4: Resumir el contenido recuperado y generar múltiples respuestas candidatas.
- LLM 5: Actúa como un "juez" interno, razonando a partir de las respuestas generadas para elegir la más precisa.
El sistema clasifica las consultas en cuatro flujos de trabajo: Referencia Clínica, Investigación Clínica, Diagnóstico e Información General, para adaptar los enfoques de recuperación y respuesta de manera eficiente.
Resultados Clave: Evidencia Cuantitativa de Excelencia en el Rendimiento
- Precisión: 90,26 % en el conjunto de pruebas MedQA, superando los principales puntos de referencia LLM como GPT-4o (87,51 %) y Med-PaLM 2 (85,4 %).
- Kappa de Cohen: 86,96 %, lo que indica una concordancia casi perfecta con las respuestas de referencia.
- Consistencia: Alta sensibilidad, precisión y puntuaciones F1 superiores al 89 % en diversas clases de preguntas sin sesgo estadístico.
- Precisión de la clasificación del flujo de trabajo: 94,5 % en general, con la mayor precisión en los flujos de trabajo de investigación clínica (100 %) y diagnóstico (98,2 %).
- Métricas de recuperación: Se recuperó el 80,2 % de los artículos esperados en PubMedQA, con una precisión de contexto del 55 % en MedQA y una relevancia de la respuesta superior al 82 % en PubMedQA.
- Fidelidad de la respuesta: Más del 57 % de las respuestas en MedQA se basaron directamente en fuentes recuperadas; mientras que algunas respuestas correctas se basaron en conocimientos previos de LLM, lo que indica un razonamiento híbrido eficaz.
- Eficiencia: El tiempo de respuesta promedio fue de aproximadamente 2,6 minutos por consulta, lo que resulta práctico para flujos de trabajo clínicos y de investigación.
Interpretación clínica e implicaciones
La alta precisión y fiabilidad demostradas posicionan a Arkangel AI como una herramienta valiosa para optimizar la toma de decisiones en entornos clínicos y de investigación. Su capacidad para recuperar, sintetizar y presentar respuestas basadas en la evidencia en cuestión de minutos puede ayudar a los profesionales clínicos a mantenerse al día con las directrices y la investigación en evolución, especialmente en entornos con recursos limitados.
Al clasificar las consultas en flujos de trabajo distintos, el sistema adapta su estrategia de búsqueda y razonamiento al contexto clínico específico, lo que podría mejorar la relevancia y la fiabilidad. El mecanismo de evaluación multi-LLM también mitiga eficazmente los problemas comunes con resultados de IA alucinados o inconsistentes.
Sin embargo, los autores enfatizan con prudencia que Arkangel AI sirve como herramienta de apoyo a la toma de decisiones, no como un sustituto del juicio clínico. La mejora continua en la ingeniería de indicaciones y la validación externa con retroalimentación clínica real son los próximos pasos clave para maximizar la seguridad y la utilidad.
Potencial de Implementación y Escalabilidad
Arkangel AI es accesible a través de una plataforma conversacional en inglés, español y portugués, lo que facilita su adopción en Latinoamérica y otros entornos multilingües. La integración modular de la API aprovecha los recursos de información existentes y confiables, mejorando la transparencia y la auditabilidad.
Las barreras para la implementación clínica incluyen la integración en historias clínicas electrónicas, la garantía de la privacidad del paciente y la capacitación de los profesionales clínicos en la formulación eficaz de indicaciones. El equipo de Arkangel AI ha comenzado a abordar estas necesidades proporcionando recursos educativos y considerando estrategias de integración del flujo de trabajo.
La arquitectura adaptable es ideal para su expansión a otros dominios y geografías médicas, siempre que se incorporen bases de datos y directrices locales relevantes. Las iteraciones futuras podrían incluir entradas multimodales, como imágenes o datos de laboratorio, para mejorar las capacidades de diagnóstico.
Conclusión y próximos pasos
Arkangel AI representa un avance significativo en la respuesta a preguntas médicas impulsada por IA, combinando capacidades de LLM de vanguardia con una rigurosa recuperación en tiempo real y razonamiento multipaso. Su impresionante precisión subraya el potencial de los agentes conversacionales para convertirse en herramientas integrales de apoyo clínico en un futuro próximo.
Las prioridades de investigación en curso incluyen la validación clínica externa, la mejora de la fidelidad de la clasificación del flujo de trabajo, la reducción de la dependencia exclusiva del conocimiento de referencia de LLM y la exploración de vías de integración en la atención rutinaria. A medida que aumenta la alfabetización en IA entre los profesionales sanitarios, herramientas como Arkangel AI pueden ayudar a superar las brechas de conocimiento, fomentar la práctica basada en la evidencia y, en última instancia, mejorar los resultados de los pacientes.
Para los líderes en innovación sanitaria, Arkangel AI ofrece un ejemplo convincente de cómo los sistemas multi-LLM personalizados pueden revolucionar el acceso a la información y el apoyo a la toma de decisiones clínicas.
Referencia
Villa MC, Castano-Villegas N, Llano I, Martinez J, Guevara MF, Zea J, Velásquez L. Arkangel AI: Un agente conversacional para la respuesta a preguntas médicas en tiempo real y basada en la evidencia. Medicina Basada en Inteligencia. 2025;12:100274. https://doi.org/10.1016/j.ibmed.2025.100274