Viaje al centro del razonamiento simulado

28/01/2026

En el primer post de esta serie defendíamos una idea sencilla: los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) brillan cuando pueden reconocer y recombinar patrones que ya han visto, y flaquean cuando les pedimos que encuentren una regla nueva en terreno poco familiar. Este segundo post profundizamos en esas ideas para entender los límites y los retos de la futura Inteligencia Artificial General con calma (AGI, por sus siglas en inglés), lo que implica entender qué significa exactamente “pensar” para una IA y por qué a veces parece que lo hace a día de hoy.

Para responder sin complicarnos, reflexionemos sobre dos formas de resolver problemas: Una consiste en reconocer un dibujo conocido tras haber estudiado de memoria, como cuando leemos una receta y la seguimos paso a paso sin inventar nada. La otra exige explorar, probar, equivocarse y, con algo de suerte, encontrar una regla nueva que nos ahorre caminos. Así, llamaremos reutilizar patrones a reconocer la forma del problema, completar los huecos y proporcionar una respuesta coherente; y descubrir a explorar alternativas, descartar con criterio, verificar pasos intermedios y, con suerte, encontrar una nueva regla que haga el problema tratable. Lo primero explica muchos éxitos cotidianos de la IA; lo segundo es lo que asociamos con “pensar a fondo”.

No siempre es fácil distinguir entre ambas cosas cuando nos fijamos solo en el resultado. Un modelo LLM puede acertar por pura familiaridad con ejercicios parecidos, al encajar piezas de forma eficaz, y desde fuera puede parecer que “ha razonado” de forma profunda. Entonces, ¿cómo sabemos si un modelo está “descubriendo” algo mientras responde y no sólo “recordando”? La tentación es usar listas de preguntas difíciles y medir aciertos, pero esa forma de valuar puede engañarnos. Si el examen se parece demasiado a lo que ya circula por internet (de donde se nutren muchos LLMs durante su entrenamiento), el modelo puede destacar por lo que ha memorizado, no por una exploración “mental”.

Por eso tiene sentido valorar no solo si acierta, sino cómo llega a la respuesta. La idea es simple y muy humana: Si queremos saber si alguien sabe de verdad, no le damos el problema que ya practicó, sino uno parecido, con una vuelta de tuerca, y observamos cómo se las apaña. Con las IAs pasa lo mismo; lo que buscamos no es sólo una respuesta correcta, sino señales de la realización de un buen proceso: que el sistema descarte con criterio, que compruebe lo que afirma y que rectifique cuando tropieza. Por eso, en los últimos meses han ganado peso las evaluaciones con entornos interactivos y cambiantes, que reducen las ventajas de memorizar y obligan a adaptarse sobre la marcha. Un ejemplo es ARC-AGI-3, que construye sobre la marcha pequeños mundos completamente nuevos y mide la eficiencia con la que un agente adquiere habilidades en escenarios que no ha visto antes [1]. También GAMEBoT, evalúa decisiones a lo largo de partidas y hace público el proceso intermedio, lo que ayuda a separar estrategia real de simples aciertos puntuales [2].

En paralelo, como indicamos en el post anterior, se han propuesto formas sencillas de “pensar” mejor durante la generación de la respuesta. Una de las más accesibles consiste en pedir al modelo varias ideas en paralelo y quedarse con la más consistente. Esta técnica, conocida como autoconsistencia (self-consistency, en inglés) se apoya en un principio razonable: a un mismo problema correcto se puede llegar por caminos distintos; comparar varias rutas reduce errores fortuitos y mejora la fiabilidad del resultado [3]. Otro enfoque, el árbol de pensamientos (o Tree of Thoughts, en inglés), invita a no seguir un único hilo, sino a explorar ramificaciones, retroceder si algo no cuadra y consolidar lo que funciona, como haríamos cualquiera de nosotros en un problema de lápiz y papel [4]. En tareas donde el espacio de opciones crece deprisa, algunas propuestas integran una búsqueda en árbol MonteCarlo [5] para guiar esa exploración de manera más ordenada y verificable, en lugar de multiplicar los hilos de pensamiento a ciegas [6,7].

Es precisamente en los problemas de rápido crecimiento en los que se comprueba rápidamente la diferencia entre repetir y descubrir. Imaginemos un laberinto que a cada esquina se bifurca en tres o cuatro pasillos nuevos; con dos giros es manejable, con diez empieza a agobiar, con veinte se convierte en una selva en la que los árboles no nos dejan ver más allá. Las personas sobrevivimos gracias a “atajos”: descartamos pasillos por intuición, buscamos señales que nos guíen, recordamos patrones de otros laberintos. Un sistema automático también necesita esos “atajos” para no perderse. Cuando el modelo acierta, a veces no es porque haya explorado todo, sino porque alguien antes descubrió la manera de “podar” las posibilidades, seleccionar los caminos y ese truco quedó “guardado” en sus parámetros. Ahí está gran parte de la magia práctica de los LLMs: aprovechar buenas ideas pasadas a velocidad de vértigo.

De forma más avanzada, están apareciendo propuestas para adaptar el modelo en tiempo de uso cuando el contexto lo exige. Bajo el nombre de Test-Time Learning, varias investigaciones muestran que es posible ajustar ligeramente el comportamiento de estos sistemas con los propios datos que analizan durante los instantes en que se ejecutan, sin etiquetas humanas y con cambios localizados, con mejoras notables cuando hay desajustes entre lo que el modelo sabe y lo que el caso pide. La idea vendría a ser “aprender un poco mientras responde”, con mecanismos diseñados para no olvidar lo que ya estaba bien [8,9]. Otra línea complementaria combina generación y verificación en la propia inferencia: en vez de votar entre muchas cadenas, se entrena o guía un verificador que ayude a decidir mejor con el mismo presupuesto de cómputo [10,11].

También hay límites prácticos que conviene no olvidar. Explorar a fondo lleva tiempo y energía, en sentido literal. Si pedimos a un sistema que baraje muchas hipótesis, que verifique subpasos y que conserve memoria de lo que ya probó, estamos consumiendo más recursos computacionales. No es nada dramático, se trata de una decisión de diseño: si el problema lo merece (como un diagnóstico médico, una ruta de misión compleja, una auditoría de seguridad…), quizá convenga “pagar” por esa capacidad de descubrimiento y un proceso más cuidadoso. Si el problema es cotidiano y repetido (como un correo, un resumen, o una traducción), lo sensato puede ser quedarnos con la rapidez de la reutilización de patrones. No se trata de esperar milagros, sino de entender lo que de verdad está ocurriendo bajo la superficie para elegir bien la herramienta para cada tarea: saber cuándo nos basta una herramienta rápida y cuándo necesitamos una que explore de verdad.

Enlazando con el espíritu del primer post, diríamos que no tiene sentido exigir a un martillo que atornille; tampoco tiene sentido vender un martillo como si fuera un juego de herramientas infinito. Con los modelos de lenguaje, lo responsable es reconocer su valor como aceleradores de tareas con estructura conocida y, a la vez, reconocer que pensar a fondo exige explorar, verificar y, a veces, aprender algo nuevo durante el propio proceso. Llamar a eso “razonamiento” sin matices confunde; negarlo por completo también sería injusto. Creo que la virtud está en ser claros con las expectativas.

En mi trabajo en GMV intento aplicar ese criterio en proyectos reales. Parte de mi trabajo es que la IA evolucione, sea útil y responsable en sectores donde el listón de calidad es muy alto. En este artículo comparto lo que he aprendido para que cualquiera (desde quien está empezando a quien lleva años en esto) pueda distinguir entre brillo aparente y progreso real. Si esta serie de posts te ha ayudado a mirar la IA con un poco más de calma en un mundillo sobrecargado de hype, ya ha cumplido su función; en la tercera entrega hablaré de nosotros, de cómo cambia nuestro propio comportamiento cuando trabajamos con estas herramientas y de por qué ese cambio merece tanta atención como los algoritmos.

Autor: David Miraut

REFERENCIAS:

[1] «ARC-AGI-3», ARC Prize. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://arcprize.org/arc-agi/3/

[2] W. Lin, J. Roberts, Y. Yang, S. Albanie, Z. Lu, y K. Han, «GAMEBoT: Transparent Assessment of LLM Reasoning in Games», en Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), W. Che, J. Nabende, E. Shutova, y M. T. Pilehvar, Eds., Vienna, Austria: Association for Computational Linguistics, jul. 2025, pp. 7656-7682. doi: 10.18653/v1/2025.acl-long.378.

[3] X. Wang et al., «Self-Consistency Improves Chain of Thought Reasoning in Language Models», 7 de marzo de 2023, arXiv: arXiv:2203.11171. doi: 10.48550/arXiv.2203.11171.

[4] S. Yao et al., «Tree of Thoughts: Deliberate Problem Solving with Large Language Models», 3 de diciembre de 2023, arXiv: arXiv:2305.10601. doi: 10.48550/arXiv.2305.10601.

[5] «Árbol de búsqueda Monte Carlo», Wikipedia, la enciclopedia libre. 21 de enero de 2021. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://es.wikipedia.org/w/index.php?title=%C3%81rbol_de_b%C3%BAsqueda_Monte_Carlo&oldid=132591437

[6] Y. Xie et al., «Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning», 17 de junio de 2024, arXiv: arXiv:2405.00451. doi: 10.48550/arXiv.2405.00451.

[7] Z. Gao et al., «Interpretable Contrastive Monte Carlo Tree Search Reasoning», 25 de diciembre de 2024, arXiv: arXiv:2410.01707. doi: 10.48550/arXiv.2410.01707.

[8] J. Hu et al., «Test-Time Learning for Large Language Models», 27 de mayo de 2025, arXiv: arXiv:2505.20633. doi: 10.48550/arXiv.2505.20633.

[9] Y. Sun, X. Wang, Z. Liu, J. Miller, A. Efros, y M. Hardt, «Test-Time Training with Self-Supervision for Generalization under Distribution Shifts», en Proceedings of the 37th International Conference on Machine Learning, PMLR, nov. 2020, pp. 9229-9248. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://proceedings.mlr.press/v119/sun20b.html

[10] Z. Liang, Y. Liu, T. Niu, X. Zhang, Y. Zhou, y S. Yavuz, «Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification», 5 de octubre de 2024, arXiv: arXiv:2410.05318. doi: 10.48550/arXiv.2410.05318.

[11] J. Qi, H. Tang, y Z. Zhu, «VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers», 10 de octubre de 2024, arXiv: arXiv:2410.08048. doi: 10.48550/arXiv.2410.08048.

Viaje al centro del razonamiento simulado

Comentarios

Texto sin formato

Relacionados