Aristóteles acuñó el término de animal racional para referirse al ser humano, remarcando de esta manera la trascendencia de la capacidad humana para razonar. Mediante el razonamiento, junto con otras capacidades cognitivas, podemos abordar un amplio espectro de tareas: elegir la hipoteca que más nos conviene, crear una nueva tecnología, o tareas cotidianas como decidir qué ropa ponernos. En definitiva, el razonamiento nos permite elegir el camino correcto y así prosperar, tanto a nivel individual como colectivo.
El modelo que se adoptó para el desarrollo de los primeros sistemas de inteligencia artificial allá en los años 60 se basaba en la lógica clásica. El razonamiento se estructuraba como un encadenamiento de reglas lógicas que se aplicaban sobre unas premisas, obteniendo como resultado nuevo conocimiento. Sin embargo, estos sistemas se mostraban muy limitados para afrontar muchas de las tareas del mundo real –como diagnosticar una enfermedad o usar el lenguaje humano–, ya que estas requieren un razonamiento que gestione incertidumbres, o procese información incompleta y ambigüedades.
En la búsqueda de modelos que se aproximaran mejor al razonamiento humano, se fueron proponiendo alternativas como los modelos probabilísticos o los modelos mentales. Los primeros incorporaban heurísticos (atajos mentales) y mecanismos para gestionar la incertidumbre, mientras que los segundos se basaban en la simulación y evaluación mental de escenarios posibles. Implementar este tipo de modelos como software era más complejo que hacerlo con los basados en reglas lógicas, cuya traducción a código era casi directa. Para ello, se hacía necesario recurrir a algoritmos de aprendizaje automático –como los basados en redes neuronales– capaces de inferir, a partir de ejemplos con trazas de razonamiento humano, una función matemática que codifica dicho proceso.
Una de las mejores fuentes de ejemplos con trazas de razonamiento humano es el lenguaje escrito. A través del lenguaje manifestamos nuestras habilidades cognitivas, entre ellas el razonamiento. Sobre esta idea se asientan precisamente los hoy omnipresentes Grandes Modelos de Lenguaje (Large Language Models o LLMs), como ChatGPT o DeepSeek, gigantescas redes neuronales entrenadas principalmente a partir de enormes colecciones de texto.
Cuando se lanzó ChatGPT en noviembre de 2022, el primer LLM de adopción masiva, los usuarios quedaron asombrados por la aparente calidad de sus respuestas. Ese brillo, quizás cegador, era especialmente notable en la fluidez y coherencia lingüística que exhibía. Pero evaluaciones llevadas a cabo por distintos laboratorios y grupos de investigación concluyeron que, en tareas de razonamiento, el rendimiento de estos primeros LLMs era deficiente.
Bajo rendimiento en tareas con razonamiento
Este bajo rendimiento de los LLMs en tareas que requerían razonamiento suponía un gran talón de Aquiles. Los LLMs se presentaban como la tecnología llamada a automatizar tareas intelectuales incluso profesiones enteras, pero no resolvían un elemento nuclear de estas: el razonamiento. Por ese motivo, los esfuerzos de los principales laboratorios de IA para mejorar las capacidades de razonamiento de los LLMs han sido continuados e intensos.
Una de las primeras innovaciones, realmente sencilla y que no implicaba cambios internos en los LLMs, consistió en incluir una orden específica en la instrucción tecleada por el usuario para que el modelo verbalizara paso a paso el razonamiento, es decir, que pensara en voz alta según generaba la respuesta. Los resultados mejoraron, pero seguían siendo limitados. A finales de 2024 se dio un paso cualitativo: OpenAI lanzó el modelo o1, el primer RLM (Reasoning Language Model o modelo de lenguaje con razonamiento), que ya incorporaba modificaciones internas de mayor calado. Escasos meses después, llegó la respuesta china: DeepSeek-R1, que no solo rivalizaba en rendimiento con o1, sino que además hizo pública la receta, lo que supuso un auténtico revulsivo para el ecosistema de LLMs de código abierto. Una de las claves de dicha receta era el uso del aprendizaje por refuerzo para mejorar la generalización del razonamiento a partir de un gran número de ejemplos de razonamiento parcialmente autogenerados por el propio modelo.
Actualmente, prácticamente todas las empresas que desarrollan LLMs ofrecen RLMs, y el salto en la calidad del razonamiento es significativo. Como muestra de ello, los modelos RLM de Google y OpenAI obtuvieron en 2025 resultados equiparables a los de los mejores participantes humanos en las olimpiadas matemáticas. Pero ¿han conseguido realmente los RLMs un razonamiento robusto comparable al humano? Las investigaciones realizadas por distintos laboratorios sugieren que no: estos modelos aún se apoyan en patrones superficiales que les impiden generalizar y fallan cuando la tarea se aleja de lo visto durante el entrenamiento.
limitaciones importantes para lograr la automatización
En definitiva, los RLMs representan, incluso con un razonamiento limitado, una herramienta de gran valor para automatizar tareas que requieren ciertos tipos de razonamiento. Su uso actual en resolución de problemas matemáticos y en desarrollo de software son ejemplos de ello. Sin embargo, aún no alcanzan la versatilidad del razonamiento humano y, por ello, siguen presentando limitaciones importantes para lograr la automatización plena de actividades o profesiones. Alcanzar esa versatilidad es uno de los grandes retos actuales de la IA, junto a otros como el autoaprendizaje o la construcción de un modelo del mundo. La gran incógnita es si los RLM/LLMs serán la llave para alcanzar esa versión software del animal racional de Aristóteles. La realidad es que la industria y los principales laboratorios de IA siguen apostando decididamente por ellos. ¿Será el camino correcto?
Orai NLP Teknologiak - Doctor en Ingeniería Informática