Los modelos extensos de lenguajes son puestos en duda por los expertos

Los modelos extensos de lenguajes son puestos en duda por los expertos

Foto: Sergio F Cara

Modelos de lenguaje entrenados con técnicas de razonamiento simulado o cadena de pensamiento (CoT, por sus siglas en inglés) han ganado popularidad en la resolución de problemas complejos mediante pasos lógicos encadenados. Sin embargo, investigadores de la Universidad de Arizona advierten que estos avances pueden ser, en gran medida, un "espejismo frágil" que se degrada cuando el modelo enfrenta tareas fuera de los patrones presentes en su entrenamiento.

 

En un estudio, los autores describen a los LLM como "simuladores sofisticados de textos similares al razonamiento", más que verdaderos razonadores basados en principios. Para evaluar esta hipótesis, desarrollaron DataAlchemy, un entorno controlado que entrena modelos pequeños con transformaciones de texto simples —como cifrado ROT y desplazamientos cíclicos— y luego los somete a pruebas que requieren composiciones funcionales inéditas o con variaciones en formato y longitud.

 

Los resultados mostraron que, al pedirles generalizar tareas fuera de dominio, los modelos tendían a producir "rutas de razonamiento correctas pero respuestas incorrectas" o, en otros casos, respuestas correctas sustentadas en razonamientos lógicamente erróneos. La precisión se deterioró aún más con cambios mínimos en las cadenas de entrada o en los símbolos utilizados.

 

"El razonamiento CoT bajo transformaciones de tareas parece reflejar una réplica de patrones aprendidos durante el entrenamiento", escriben los investigadores, señalando que el ajuste fino supervisado (supervised fine-tuning, SFT) puede mejorar el rendimiento en casos puntuales, pero no soluciona la falta de capacidad de razonamiento abstracto.

 

Otro hallazgo relevante es que la capacidad de estos modelos para generar texto fluido puede crear una "falsa aura de fiabilidad", dificultando la detección de errores lógicos en ámbitos críticos como la medicina, las finanzas o el análisis jurídico. Por ello, los autores recomiendan que las evaluaciones prioricen pruebas con tareas que queden fuera de cualquier conjunto de entrenamiento y que los futuros desarrollos apunten a una competencia inferencial más profunda.

 

El estudio concluye que, si bien la cadena de pensamiento puede ser útil para ciertos casos dentro de patrones conocidos, su eficacia en contextos novedosos sigue siendo limitada, lo que obliga a replantear su papel en aplicaciones donde la precisión y la lógica son esenciales. (Notipress)

Notas Relacionadas