Una evaluación sistemática de la competencia multimodal de GPT-4V en el análisis de radiografías de tórax

Díaz, Minerva Montero; Morales, Roberto Rodríguez; Sánchez, Luis Antonio Rodríguez

Research article

Volume 15 Issue 1
Pages: 1
-9
Open Access
Download

Una evaluación sistemática de la competencia multimodal de GPT-4V en el análisis de radiografías de tórax

By: ^¹, ^², ^³

¹Departamento de Matemática, Instituto de Cibernética, Matemática y Física, La Habana, Cuba

²Departamento de Matemática Interdisciplinaria, Instituto de Cibernética, Matemática y Física, La Habana, Cuba

³Departamento de Neurología, Hospital General Docente Roberto Rodríguez , Ciego de Ávila, Cuba

Received: 12/06/2024
Accepted: 23/09/2024
Published: 30/12/2024

Abstract

Este estudio presenta una evaluación sistemática del desempeño multimodal de GPT-4V para el análisis de radiografías de tórax en tres tareas clínicamente relevantes: generación de informes radiológicos, respuesta a preguntas visuales médicas y localización visual médica. Para cada tarea, diseñamos conjuntos de prompts específicos orientados a elicitar las competencias propias de cada una necesarias para obtener resultados clínicamente significativos (p. ej., elaboración de informes estructurados, razonamiento condicionado por preguntas y localización a nivel regional). Evaluamos GPT-4V mediante tres enfoques complementarios —puntuación cuantitativa automática, evaluación humana experta y estudios de casos cualitativos— con el fin de aportar tanto amplitud como profundidad al análisis. Los resultados muestran que GPT-4V demuestra una sólida comprensión global de las radiografías de tórax, generando informes de alta calidad y respondiendo con precisión a muchas consultas clínicas fundamentadas en la imagen. Sin embargo, su capacidad de localización visual sigue siendo comparativamente débil, lo que limita una localización fiable y el razonamiento específico por regiones. Además, observamos una discrepancia consistente entre las conclusiones sugeridas por las métricas automáticas estándar y aquellas derivadas del juicio experto, lo que subraya la necesidad de protocolos de evaluación clínicamente alineados para los modelos multimodales de lenguaje de gran escala en radiología.

Keywords: radiografía de tórax; modelo multimodal de lenguaje de gran escala; GPT-4V; generación de informes radiológicos; respuesta a preguntas visuales médicas; localización visual; evaluación humana; métricas clínicamente alineadas

On this page

Una evaluación sistemática de la competencia multimodal de GPT-4V en el análisis de radiografías de tórax

Abstract