La IA conversacional de Vitruvius logra una precisión del 90 % en consultas clínicas de estilo USMLE para pacientes de todas las especialidades.

Vitruvius: el chat multi-LLM con recuperación aumentada responde consultas de estilo USMLE con un 90,3 % de precisión.

15 de agosto de 2025por Jose Zea

Vitruvius: Mejorando la respuesta a preguntas médicas con IA conversacional: logrando una precisión del 90 % en consultas clínicas estilo USMLE

Los profesionales de la salud se enfrentan a un flujo constante de conocimiento clínico y hallazgos de investigación, lo que dificulta cada vez más mantenerse actualizados y acceder de forma eficiente a información médica fiable durante la atención al paciente. En este contexto, la Inteligencia Artificial (IA) impulsada por Modelos de Lenguaje de Gran Tamaño (LLM) promete revolucionar la forma en que los profesionales clínicos recuperan e interpretan el conocimiento basado en la evidencia en tiempo real. El reciente estudio sobre Vitruvius, un novedoso agente conversacional, acerca esta promesa a la realidad clínica al demostrar capacidades de vanguardia para comprender y responder con precisión a preguntas médicas complejas. Vitruvius aprovecha un sistema multi-LLM combinado con la recuperación en tiempo real de literatura médica confiable para responder consultas clínicas con una precisión superior al 90% utilizando preguntas de estilo USMLE. Este rendimiento supera el de los LLM médicos ampliamente utilizados y demuestra el potencial de los asistentes basados en IA para mejorar el apoyo a la toma de decisiones clínicas y la accesibilidad a la investigación, respetando al mismo tiempo el papel crucial de la experiencia humana. Presentamos Vitruvius: IA conversacional diseñada para la recuperación de conocimiento clínico. En el ámbito sanitario, el acceso oportuno a información precisa y basada en la evidencia es fundamental. Los médicos consultan con frecuencia guías médicas, artículos de investigación y mejores prácticas para guiar la gestión de sus pacientes. Sin embargo, los métodos existentes (búsquedas manuales en bases de datos, herramientas estáticas de apoyo clínico) suelen requerir mucho tiempo y no integran dinámicamente la amplia evidencia disponible. Además, carecen de capacidad de conversación interactiva, lo que limita su facilidad de uso durante flujos de trabajo clínicos intensos.

Vitruvius aborda estos desafíos mediante un agente conversacional impulsado por cinco LLM especializados que gestionan conjuntamente la recuperación de información, la síntesis, el razonamiento y la generación de respuestas. El sistema consulta activamente bases de datos como PubMed y Google para recuperar guías clínicas y artículos de investigación relevantes. Al clasificar automáticamente los tipos de consulta (referencia clínica, investigación, diagnóstico o información general), adapta su estrategia de búsqueda para generar respuestas precisas y basadas en evidencia en varios idiomas.

Probado con el conjunto de datos MedQA (un punto de referencia que comprende más de 1200 preguntas del examen de licencia médica en EE. UU.), la última versión de Vitruvius alcanzó una precisión excepcional del 90,26 %, superando a modelos destacados como GPT-4o y Med-PaLM 2. Su sólido rendimiento destaca su potencial como un potente asistente en tiempo real para el descubrimiento de conocimiento clínico y la medicina basada en la evidencia.

Colaboración y contexto del estudio

Este estudio fue realizado por el equipo de Arkangel AI en Bogotá, Colombia, una empresa especializada en aplicaciones de IA enfocadas en la salud. Este entorno es particularmente significativo dada la demanda global de soluciones innovadoras que satisfagan la rápida evolución de la evidencia médica y las limitaciones del flujo de trabajo de los profesionales clínicos, incluyendo regiones donde el acceso al conocimiento clínico actualizado sigue siendo difícil.

Al abordar un amplio espectro de consultas de atención médica e incorporar capacidades multilingües (inglés, español, portugués), Vitruvius aborda diversas poblaciones de pacientes y sistemas de salud. Esta inclusión aumenta su potencial de implementación en diversos entornos clínicos, incluyendo entornos con recursos limitados.

Diseño y metodología del estudio

La evaluación empleó el conjunto de datos MedQA, específicamente el conjunto de 1273 preguntas del examen, que presenta consultas de opción múltiple estilo USMLE y abarca una amplia gama de especialidades como pediatría, endocrinología y oncología. Las preguntas varían en complejidad, incluyendo aquellas que requieren razonamiento de un solo paso y otras que implican análisis de casos clínicos de varios pasos.

Vitruvius comprende cinco grandes modelos de lenguaje que trabajan en conjunto mediante un marco de Recuperación-Generación Aumentada (RAG):

Orquestador (LLM 1): Clasifica el tipo de pregunta y lo dirige a flujos de trabajo especializados.
Generador de Consultas (LLM 2): Crea estrategias de búsqueda precisas adaptadas a la intención semántica de la consulta.
Resumidor (LLM 3): Extrae y condensa información clave de los textos recuperados.
Generador de Respuestas (LLM 4): Produce múltiples respuestas posibles basadas en el contexto recuperado y el conocimiento intrínseco del modelo.
Juez (LLM 5): Evalúa las respuestas de los candidatos para sintetizar una respuesta final consolidada.

Esta arquitectura modular permite al sistema refinar continuamente las respuestas integrando el conocimiento previo con evidencia actualizada y seleccionada de bases de datos confiables. Las búsquedas se basan en más de 37 millones de referencias biomédicas, principalmente mediante las API de Google y PubMed, lo que garantiza que las respuestas se basen en guías clínicas y publicaciones científicas acreditadas.

El sistema facilita la interacción dinámica y conversacional a través de una interfaz intuitiva que admite preguntas de seguimiento, lo que permite a los profesionales clínicos guiar el proceso de consulta de forma iterativa. Las respuestas se proporcionan con referencias citadas, lo que mejora la transparencia y la fiabilidad.

Resultados clave

Precisión: La versión final de Vitruvius (V3) obtuvo una precisión del 90,26 % en el conjunto completo de 1273 preguntas del cuestionario MedQA.
Evaluación de la fase uno: En un subconjunto de 288 preguntas, la versión 3 alcanzó una precisión del 93,06 %, superando a las versiones anteriores (V1: 85,76 %, V2: 90,28 %).
Consistencia entre clases: La precisión, la recuperación y las puntuaciones F1 oscilaron estrechamente entre el 88 % y el 92 % en todas las clases de respuesta (A, B, C, D), lo que indica un rendimiento equilibrado.
Métricas de concordancia: Cohen El coeficiente kappa del 86,96 % demostró una alta concordancia con las respuestas de verdad fundamental.
Superioridad comparativa: Superó a GPT-4o (87,51 % de precisión) y Med-PaLM 2 (85,4 %) en la misma escala de datos.

El análisis cualitativo de errores reveló errores ocasionales, especialmente en preguntas que involucraban matices éticos, interpretación del comportamiento humano o casos que dependían del análisis de imágenes. Estas limitaciones se atribuyen tanto a las limitaciones del conjunto de datos como a los desafíos actuales del razonamiento con IA.

Interpretación e implicaciones clínicas

La capacidad de Vitruvius para combinar la recuperación de evidencia con el razonamiento matizado representa un avance significativo en el apoyo clínico asistido por IA. Para profesionales de la salud con mucha actividad, ofrece acceso rápido y conversacional a respuestas precisas y basadas en evidencia, sin necesidad de filtrar manualmente múltiples recursos.

Esto puede mejorar la productividad, reducir la sobrecarga cognitiva y mejorar la consistencia en la toma de decisiones clínicas. Puede ser especialmente valioso en entornos donde es difícil mantener actualizaciones continuas de conocimientos o donde escasea la experiencia especializada.

Sin embargo, la supervisión humana sigue siendo esencial. El estudio enfatiza que, a pesar de su alta precisión, Vitruvius debería actuar como un complemento, no como un sustituto, del criterio médico, especialmente considerando algunos tipos de errores que podrían afectar la seguridad del paciente si no se corrigen.

Por lo tanto, la integración de estas herramientas de IA debe priorizar la formación del personal clínico, el razonamiento transparente de la IA y unos límites claros en cuanto a la toma de decisiones autónoma para maximizar los beneficios y minimizar los riesgos.

Implementación y escalabilidad

Vitruvius, implementado actualmente mediante una interfaz conversacional web a través de la plataforma de Arkangel AI, está diseñado para uso clínico multilingüe en tiempo real. Su diseño modular facilita las actualizaciones, incluyendo la incorporación de nuevos conocimientos médicos y la capacitación sobre conjuntos de datos adicionales.

Los desafíos para una adopción más amplia incluyen garantizar una integración fluida con los sistemas de historiales clínicos electrónicos (HCE) y los flujos de trabajo clínicos, gestionar la privacidad y seguridad de los datos, y abordar la adaptación al contexto lingüístico y cultural.

Las futuras estrategias de implementación podrían aprovechar la personalización para especialidades o entornos de atención médica específicos y ampliar las interacciones mediante asistentes de voz o plataformas móviles para maximizar la utilidad.

Conclusión y próximos pasos

Vitruvius marca un avance significativo en la respuesta a preguntas médicas impulsadas por IA, combinando la potencia de un amplio modelo lingüístico con la recuperación de evidencia en tiempo real para lograr una precisión de vanguardia en preguntas complejas de exámenes de licencia. Ofrece un prototipo de herramienta convincente para ampliar el acceso de los médicos al conocimiento relevante de forma eficiente y fiable.

La investigación futura debe centrarse en ensayos clínicos prospectivos que evalúen el impacto en la eficiencia del flujo de trabajo y los resultados de los pacientes, extendiendo la validación a diversas preguntas clínicas y conjuntos de datos del mundo real, y mejorando la transparencia del modelo y las características de seguridad. Involucrar a los profesionales clínicos de primera línea en el diseño iterativo será clave para una implementación exitosa.

A medida que los agentes basados en IA como Vitruvius evolucionan, se convertirán en socios indispensables en la medicina basada en la evidencia, acelerando la aplicación práctica del conocimiento y complementando el papel indispensable de la experiencia clínica humana.

Referencias y detalles del estudio

Título del estudio: Vitruvius: Un agente conversacional para la respuesta a preguntas médicas basadas en la evidencia en tiempo real

Autores y afiliaciones: Maria Camila Villa, Isabella Llano, Natalia Castaño-Villegas, Julian Martinez, Maria Fernanda Guevara, Jose Zea, Laura Velásquez; Arkangel AI, Bogotá, Colombia

Objetivo clave: Desarrollar y evaluar un agente conversacional basado en LLM especializado en la respuesta a preguntas médicas basadas en la evidencia.

Tamaño y entorno del estudio: Evaluación de 1273 preguntas clínicas del conjunto de datos MedQA del USMLE.

Periodo: Manuscrito publicado en octubre de 2024.

Diseño del estudio: Evaluación retrospectiva del rendimiento del modelo de IA frente a un conjunto de datos de referencia validado.

Tipo de modelo de IA y fuentes de datos: Conjunto multi-LLM que utiliza arquitecturas de la familia GPT con API integradas de PubMed y Google para la recuperación de literatura.

Resultados principales: Precisión en la selección de respuestas correctas, precisión, recuperación, puntuaciones F1 y Kappa de Cohen Acuerdo.

Principales resultados cuantitativos: Precisión de la versión 3: 90,26 %, índice Kappa de Cohen: 86,96 %, superando a los modelos de la competencia.

Implicaciones clave: Demuestra la viabilidad y los beneficios del apoyo de IA en tiempo real, conversacional y basado en la evidencia para profesionales de la salud.

Contexto de implementación: Accesible a través de la plataforma de IA Arkangel, disponible en inglés, español y portugués. Diseñado para investigación y asistencia clínica, no para la toma de decisiones autónoma.

Enlace al artículo: https://doi.org/10.1101/2024.10.03.24314861