¿Sueña Skynet con ovejas eléctricas?

14/10/2025

Imprimir

En los últimos cuatro años hemos contribuido a un progreso vertiginoso en los grandes modelos de lenguaje (LLMs). Para muchos, entre los que me encuentro, lo más llamativo son esos modelos que “piensan antes de responder”, capaces de generar una especie de camino intermedio en el que van desgranando pasos para resolver una tarea. La idea es sugerente: si el modelo se para a “pensar”, quizá se acerque más a cómo razonamos los humanos (y nos ayude a comprender mejor los mecanismos de nuestras propias mentes). Pero conviene contar esta historia con calma y sin adornos. Lo que estos sistemas LLMs hacen bien, lo hacen muy bien; lo que aún no pueden hacer, también es importante conocerlo para no dejarse engatusar.

A principios de verano se publicó un trabajo de investigación de Apple [1] que encendió una discusión muy interesante. Los autores proponían que, a partir de cierto umbral de dificultad, los modelos LLMs no sólo empezaban a fallar más, sino que además reducían su “esfuerzo de razonamiento” incluso cuando todavía tenían margen de cómputo. En sus experimentos, al enfrentarlos a rompecabezas conocidos como las torres de Hanói con muchos discos, parecía que el modelo “tiraba la toalla” antes de tiempo. A este comportamiento lo llamaron “fatiga anticipada”. Tras un análisis detallado de revisores independientes se desveló que parte de ese efecto podía explicarse por cómo estaban diseñadas las pruebas: tareas con muchísimos pasos, donde un solo tropiezo arrastra a los siguientes, y con exigencias de memoria (ventana de contexto) que superaban lo que los LLMs evaluados eran capaces de manejar de una vez. En ese escenario, rendirse pronto no era tanto una “emoción” como una consecuencia práctica: es difícil persistir para intentar llegar al final si sabes que te vas a perder por el camino.

Más allá de los matices metodológicos, el artículo de Apple tuvo un efecto tremendamente positivo: empujó a la comunidad a medir mejor estas estrategias de “pensar en voz alta” y a explorar cómo hacerlas más fiables. Desde entonces han surgido enfoques muy variados. Algunos se inspiran en hábitos humanos que nos funcionan cuando resolvemos problemas: dividir una tarea en pasos pequeñitos (que llamaremos subpasos), contrastar una idea con otra, o pedir una segunda opinión antes de decidir. Otros exploran rutas menos intuitivas, como el entrenamiento por refuerzo, que premia comportamientos útiles, aunque no sepamos contarlos en forma de palabras. En ese mapa caben nombres como OpenAI [2] o Anthropic [3], con líneas más “humanas”, y apuestas como la de DeepSeek, que prueban atajos distintos [4].

Una lección útil de las investigaciones publicadas en estos meses veraniegos es que, cuando un modelo intenta razonar en cadenas muy largas, se multiplica la posibilidad de cometer pequeños errores que luego arrastran a los demás. A veces ocurre porque el sistema se aferra a una explicación que suena bien y deja de mirar alternativas, como si adquiriese “visión túnel” [5]. Otras, porque pierde confianza en su propio hilo de “pensamiento” [6], se contradice y termina escogiendo un camino peor. Para mitigar esto, se ha probado a hacer que el modelo genere varias “líneas de pensamiento” en paralelo y luego se quede con la más prometedora [7], o con una combinación ponderada. Estos mecanismos mejoran los resultados en muchos casos, aunque también encarecen computacionalmente el proceso. En esta exploración científica, además, hemos ganado conciencia de otro problema conocido: la facilidad con la que los modelos “se inventan” detalles. No lo hacen por malicia, sino porque han aprendido que, en ausencia de datos, completar una frase con algo plausible suele ser mejor que callar [8] (lo que llamamos técnicamente alucinaciones, que incluso pueden convertirse en un problema grave de seguridad informática [9]). Justo por eso se está investigando ahora cómo enseñarles a dudar, a reconocer errores y a verificar antes de afirmar.

Ahora bien, la metáfora del título de este post apunta a algo más profundo. Hoy por hoy, lo que llamamos “razonamiento” en estos sistemas sigue siendo una simulación muy limitada y superficial, como veremos en el siguiente post de esta serie. Los modelos destacan cuando pueden reutilizar patrones que ya han visto miles de veces en su entrenamiento. Si cambiamos los nombres de las piezas de un problema, si introducimos datos irrelevantes que distraen o si pedimos que generalicen a estructuras nuevas, su desempeño se resiente de forma notable.

En mi opinión el nombre de modelos "razonadores" es un término comercial que puede llevar a confusión, dado que las IA actuales no razonan como los humanos. Los resultados evidencian que los modelos actuales no solo tienen limitaciones en razonamiento simbólico, sino también en generalización estructural. No construyen nuevos significados, ni verifican con intención. Operan sobre correlaciones, no sobre comprensión. Simulan razonamiento, pero no lo experimentan. Otros investigadores como el reciente premio nobel Yann LeCun, han debatido mucho sobre estos aspectos. Los LLMs hacen algo diferente, valioso en muchos contextos, pero diferente.

Esto no disminuye en absoluto el valor de los avances logrados, que son enormes y tienen aplicaciones reales y beneficiosas. Precisamente por eso conviene mantener una mirada crítica y honesta. Si nos dejamos llevar por titulares grandilocuentes y cargados de hype, podemos confundir la reutilización eficaz de patrones con pensamiento profundo. Y no son lo mismo. La reutilización es una gran ayuda para trabajar más rápido y mejor en tareas repetidas o con estructura conocida. El pensamiento profundo, en cambio, aparece cuando hay que explorar caminos nuevos, descartar opciones, comprobar resultados y, a veces, cambiar de enfoque sobre la marcha. Para que un sistema automático se acerque a ese nivel de inteligencia de manera fiable, tiene que poder hacer más que concatenar frases: necesita explorar, verificar y aprender en el propio proceso.

Antes de delegar decisiones críticas en estos modelos (en movilidad autónoma, ciberseguridad, ingeniería de sistemas o incluso política [10]), merece la pena hacerse dos preguntas sencillas. La primera: ¿este problema se parece lo suficiente a otros que el modelo LLM ya ha visto, o le estamos pidiendo que navegue terreno desconocido? La segunda: ¿se ha hecho algún tipo de verificación independiente de lo que propone, o se trata únicamente de una respuesta que suena convincente por sí misma? Si respondemos con seriedad a esas dos preguntas, evitaremos malentendidos y tomaremos mejores decisiones. En esta serie de posts me gustaría seguir justamente ese hilo. En la próxima entrega veremos por qué muchos de los éxitos de los modelos LLM son, sobre todo, casos brillantes de reutilización de patrones; y en una tercera hablaremos de algo que me preocupa especialmente: cómo cambia nuestro propio comportamiento cuando trabajamos con estas herramientas y cuánto influyen en la forma en que pensamos y resolvemos problemas.

En este artículo quiero acercar la IA a las personas con un enfoque útil, responsable y transparente. Mi intención es compartir de forma didáctica en este espacio lo que aprendo en los proyectos en los que trabajo en GMV para ayudar a distinguir entre expectativas y realidad, y para que cualquiera (desde estudiantes hasta profesionales) pueda tomar mejores decisiones. Me encantaría que siguieras esta serie, que me cuentes tus dudas y que conversemos.

Autor: David Miruat

REFERENCIAS:

[1] P. Shojaee, I. Mirzadeh, K. Alizadeh, M. Horton, S. Bengio, y M. Farajtabar, «The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity», 18 de julio de 2025, arXiv: arXiv:2506.06941. doi: 10.48550/arXiv.2506.06941.

[2] A. El-Kishky et al., «Learning to Reason with LLMs». OpenAI, septiembre de 2024. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://openai.com/index/learning-to-reason-with-llms/

[3] Y. Chen et al., «Reasoning Models Don’t Always Say What They Think», 8 de mayo de 2025, arXiv: arXiv:2505.05410. doi: 10.48550/arXiv.2505.05410.

[4] D. Guo et al., «DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning», Nature, vol. 645, n.^o 8081, pp. 633-638, sep. 2025, doi: 10.1038/s41586-025-09422-z.

[5] H. Wen et al., «ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute», 30 de agosto de 2025, arXiv: arXiv:2509.04475. doi: 10.48550/arXiv.2509.04475.

[6] A. Sinha, A. Arun, S. Goel, S. Staab, y J. Geiping, «The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs», 11 de septiembre de 2025, arXiv: arXiv:2509.09677. doi: 10.48550/arXiv.2509.09677.

[7] W. Zhao, P. Aggarwal, S. Saha, A. Celikyilmaz, J. Weston, y I. Kulikov, «The Majority is not always right: RL training for solution aggregation», 8 de septiembre de 2025, arXiv: arXiv:2509.06870. doi: 10.48550/arXiv.2509.06870.

[8] A. T. Kalai, O. Nachum, S. S. Vempala, y E. Zhang, «Why Language Models Hallucinate», 4 de septiembre de 2025, arXiv: arXiv:2509.04664. doi: 10.48550/arXiv.2509.04664.

[9] D. Miraut, «Slopsquatting: una amenaza silenciosa nacida de las alucinaciones de los LLMs», GMV Blog. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://www.gmv.com/es-es/media/blog/ciberseguridad/slopsquatting-amenaza-silenciosa-nacida-alucinaciones-llms

[10] RTVE.es, «El Gobierno de Albania nombra a una “ministra” creada con Inteligencia Artificial para acabar con la corrupción», RTVE.es. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://www.rtve.es/noticias/20250912/gobierno-albania-nombra-ministra-creada-inteligencia-artificial-acabar-corrupcion/16726028.shtml

Imprimir

¿Sueña Skynet con ovejas eléctricas?

Comentarios

Texto sin formato

Relacionados