On this page

Aumento de herramientas con calculadora obligatoria y mapeo de conceptos erróneos basado en solapamiento para el razonamiento cuantitativo odontológico con modelos de lenguaje de gran tamaño

By: José Antonio Rodríguez-Martínez1
1Radiología e Imagen, Hospital General, SSA, Tlalpan, Ciudad de México, México

Abstract

Antecedentes: Los modelos de lenguaje de gran tamaño (LLMs) han mostrado un rendimiento prometedor en preguntas de conocimiento y comprensión en odontología; sin embargo, los ítems cuantitativos (p. ej., dosificación, conversiones de unidades, estequiometría, razones/ppm y mezcla de materiales) siguen siendo una debilidad constante y un posible riesgo para la seguridad. Además, distintas versiones del modelo suelen compartir las mismas respuestas incorrectas, lo que sugiere modos de error estructurados, similares a conceptos erróneos, en lugar de fallos puramente aleatorios. Métodos: Proponemos un marco reproducible centrado en un benchmark seguro en términos de derechos de autor Dq y tres sistemas: un LLM base , un sistema aumentado con herramientas y uso obligatorio de calculadora ℳ + Calc que debe invocar una calculadora/solucionador simbólico para cada subpaso numérico, y ℳ + Calc + Remed, que amplía ℳ + Calc con diagnósticos de error informados por solapamiento para construir un “mapa de conceptos erróneos en odontología” y activar listas de verificación de validación dirigidas. Definimos exactitud, fiabilidad numérica (valor+unidades) y reducción por tipo de error, y describimos pruebas inferenciales mediante bootstrap pareado/pruebas de McNemar y calibración con teoría de respuesta al ítem (IRT). Resultados: Mediante un estudio de simulación Monte Carlo transparente para ilustrar la tubería de análisis, la obligatoriedad del uso de calculadora mejora la exactitud global de 73.7% a 82.0% y reduce los errores de ejecución de 11.1% a 3.6%; añadir remediación basada en solapamiento incrementa la exactitud a 85.4% y disminuye los errores conceptuales a 7.6%. Conclusiones: La metodología propuesta separa los fallos conceptuales de los fallos de ejecución, proporciona un procedimiento accionable para mapear conceptos erróneos y motiva una evaluación empírica con ítems cuantitativos odontológicos de autoría abierta para posibilitar una tutoría con IA más segura y una instrucción cuantitativa mejor dirigida.