Este estudio presenta una evaluación sistemática del desempeño multimodal de GPT-4V para el análisis de radiografías de tórax en tres tareas clínicamente relevantes: generación de informes radiológicos, respuesta a preguntas visuales médicas y localización visual médica. Para cada tarea, diseñamos conjuntos de prompts específicos orientados a elicitar las competencias propias de cada una necesarias para obtener resultados clínicamente significativos (p. ej., elaboración de informes estructurados, razonamiento condicionado por preguntas y localización a nivel regional). Evaluamos GPT-4V mediante tres enfoques complementarios —puntuación cuantitativa automática, evaluación humana experta y estudios de casos cualitativos— con el fin de aportar tanto amplitud como profundidad al análisis. Los resultados muestran que GPT-4V demuestra una sólida comprensión global de las radiografías de tórax, generando informes de alta calidad y respondiendo con precisión a muchas consultas clínicas fundamentadas en la imagen. Sin embargo, su capacidad de localización visual sigue siendo comparativamente débil, lo que limita una localización fiable y el razonamiento específico por regiones. Además, observamos una discrepancia consistente entre las conclusiones sugeridas por las métricas automáticas estándar y aquellas derivadas del juicio experto, lo que subraya la necesidad de protocolos de evaluación clínicamente alineados para los modelos multimodales de lenguaje de gran escala en radiología.