Viatge al centre del raonament simulat

Viaje al centro del razonamiento simulado

En la primera publicació d’aquesta sèrie defensàvem una idea senzilla: els grans models de llenguatge (LLM, per les seves sigles en anglès) brillen quan poden reconèixer i recombinar patrons que ja han vist, i fluixegen quan els demanem que trobin una regla nova en un terreny poc familiar. En aquest segon apunt aprofundim en aquestes idees per entendre, amb calma, els límits i reptes de la futura intel·ligència artificial general (AGI, per les seves sigles en anglès), la qual cosa implica entendre què significa exactament “pensar” per a una IA i per què de vegades sembla que ho fa actualment.

Per respondre sense complicar-nos, reflexionem sobre dues formes de resoldre problemes: Una consisteix a reconèixer un dibuix conegut després d’haver estudiat de memòria, com quan llegim una recepta i la seguim pas a pas sense inventar res. L’altra exigeix explorar, provar, equivocar-se i, amb una mica de sort, trobar una regla nova que ens estalviï camins. Així, anomenarem reutilitzar patrons a reconèixer la forma del problema, emplenar els buits i proporcionar una resposta coherent; i descobrir a explorar alternatives, descartar amb criteri, verificar passos intermedis i, amb sort, trobar una nova regla que faci el problema tractable. El primer concepte explica molts èxits quotidians de la IA; el segon és el que associem amb “pensar a fons”.

No sempre és fàcil distingir entre ambdues coses quan ens fixem només en el resultat. Un model LLM pot encertar per pura familiaritat amb exercicis semblants, ja que encaixa peces de manera eficaç, i des de fora pot semblar que “ha raonat” de manera profunda. Llavors, com sabem si un model està “descobrint” alguna cosa mentre respon i no només “recordant”? La temptació és utilitzar llistes de preguntes difícils i mesurar encerts, però aquesta forma d’avaluar ens pot enganyar. Si l’examen s’assembla massa al que ja circula per internet (d’on es nodreixen molts LLM durant el seu entrenament), el model pot destacar pel que ha memoritzat, i no pas per una exploració “mental”.

Per això té sentit avaluar no només si encerta, sinó com arriba a la resposta. La idea és simple i molt humana: si volem saber si algú sap de veritat, no li donem un problema que ja ha practicat, sinó un de semblant, reblant el clau, i observem com se’n surt. Amb les IA passa el mateix: el que busquem no és només una resposta correcta, sinó senyals de la realització d’un bon procés; que el sistema descarti amb criteri, comprovi el que afirma i rectifiqui quan ensopega. Per això, els darrers mesos han guanyat pes les avaluacions amb entorns interactius i canviants, que redueixen els avantatges de memoritzar i obliguen a adaptar-se sobre la marxa. Un exemple n’és ARC-AGI-3, que construeix sobre la marxa petits mons completament nous i mesura l’eficiència amb què un agent adquireix habilitats en escenaris que no ha vist abans. [1] També GAMEBoT avalua decisions al llarg de partides i fa públic el procés intermedi, la qual cosa ajuda a separar l’estratègia real de simples encerts puntuals. [2]

En paral·lel, com indiquem a l’apunt anterior, s’han proposat formes senzilles de “pensar” millor durant la generació de la resposta. Una de les més accessibles consisteix a demanar al model diverses idees en paral·lel i quedar-se amb la més consistent. Aquesta tècnica, coneguda com autoconsistència (self-consistency, en anglès) es basa en un principi raonable: a un mateix problema correcte es pot arribar per camins diferents; comparar diverses rutes redueix errors fortuïts i millora la fiabilitat del resultat. [3] Una altra metodologia, l’arbre de pensaments (o Tree of Thoughts, en anglès), convida a no seguir un únic fil, sinó explorar ramificacions, retrocedir si alguna cosa no quadra i consolidar el que funciona, com faríem qualsevol de nosaltres davant un problema de llapis i paper. [4] En tasques en què l’espai d’opcions creix de pressa, algunes propostes integren una cerca en arbre MonteCarlo [5] per guiar aquesta exploració de manera més ordenada i verificable, en lloc de multiplicar els fils de pensament a cegues [6,7].

És precisament en els problemes de creixement ràpids on es comprova ràpidament la diferència entre repetir i descobrir. Imaginem un laberint que a cada cantonada es bifurca en tres o quatre passadissos nous; amb dos girs es pot gestionar, amb deu, comença a aclaparar, amb vint, es converteix en una selva en què els arbres no ens deixen veure més enllà. Les persones sobrevivim gràcies a “dreceres”: descartem passadissos per intuïció, busquem senyals que ens guiïn, recordem patrons d’altres laberints. Un sistema automàtic també necessita aquestes “dreceres” per no perdre’s. Quan el model encerta, de vegades no és perquè ho hagi explorat tot, sinó perquè algú abans va descobrir la manera de “podar” les possibilitats, de seleccionar els camins, i aquest truc va quedar “desat” en els seus paràmetres. Aquí hi ha gran part de la màgia pràctica dels LLM: aprofitar bones idees passades a una velocitat vertiginosa.

D’una manera més avançada estan apareixent propostes per adaptar el model en temps d’ús quan el context ho exigeix. Amb el nom de Test-Time Learning, diverses investigacions mostren que és possible ajustar lleugerament el comportament d’aquests sistemes amb les dades mateixes que analitzen durant els instants en què s’executen, sense etiquetes humanes i amb canvis localitzats, amb millores notables quan hi ha desajustos entre el que el model sap i el que el cas demana. La idea seria “aprendre una mica mentre respon”, amb mecanismes dissenyats per no oblidar el que ja estava bé. [8,9] Una altra línia complementària combina generació i verificació en la inferència mateixa: en lloc de votar entre moltes cadenes, s’entrena o guia un verificador que ajudi a decidir millor amb el mateix pressupost de còmput. [10,11]

També hi ha límits pràctics que convé no oblidar. Explorar a fons requereix temps i energia, en sentit literal. Si demanem a un sistema que barregi moltes hipòtesis, verifiqui subpassos i conservi memòria del que ja ha provat, estem consumint més recursos computacionals. No és pas dramàtic, es tracta d’una decisió de disseny: si el problema ho mereix (com un diagnòstic mèdic, una ruta de missió complexa, una auditoria de seguretat…), potser convé “pagar” per aquesta capacitat de descobriment i un procés més acurat. Si el problema és quotidià i repetit (com un correu, un resum o una traducció), potser és més sensat quedar-nos amb la rapidesa de la reutilització de patrons. No es tracta d’esperar miracles, sinó d’entendre el que de veritat està passant sota la superfície per triar bé l’eina per a cada tasca: saber quan n’hi ha prou amb una eina ràpida i quan en necessitem una que explori de debò.

Enllaçant amb l’esperit del primer apunt, diríem que no té sentit exigir-li a un martell que cargoli; tampoc no té sentit vendre un martell com si fos un joc d’eines infinit. Amb els models de llenguatge, el que és responsable és reconèixer-ne el valor com a acceleradors de tasques amb estructura coneguda i, alhora, reconèixer que pensar a fons exigeix explorar, verificar i, de vegades, aprendre alguna cosa nova durant el mateix procés. Anomenar això “raonament” sense matisos confon; negar-ho per complet també seria injust. Crec que la virtut rau a ser clars amb les expectatives.

En el meu treball a GMV intento aplicar aquest criteri en projectes reals. Part de la meva feina és que la IA evolucioni, sigui útil i responsable en sectors en què el llistó de qualitat és molt alt. En aquest article comparteixo el que he après perquè qualsevol persona (tant qui està començant com qui fa anys que s’hi dedica) pugui distingir entre brillantor aparent i progrés real. Si aquesta sèrie de publicacions t’ha ajudat a mirar la IA amb una mica més de calma en un món sobrecarregat de hype, ja ha complert la seva funció. Al tercer lliurament parlaré de nosaltres, de com canvia el nostre propi comportament quan treballem amb aquestes eines i per què aquest canvi mereix tanta atenció com els algoritmes.

Autor: David Miraut

REFERÈNCIES:

[1] «ARC-AGI-3», ARC Prize. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://arcprize.org/arc-agi/3/

[2] W. Lin, J. Roberts, Y. Yang, S. Albanie, Z. Lu, y K. Han, «GAMEBoT: Transparent Assessment of LLM Reasoning in Games», en Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), W. Che, J. Nabende, E. Shutova, y M. T. Pilehvar, Eds., Vienna, Austria: Association for Computational Linguistics, jul. 2025, pp. 7656-7682. doi: 10.18653/v1/2025.acl-long.378.

[3] X. Wang et al., «Self-Consistency Improves Chain of Thought Reasoning in Language Models», 7 de marzo de 2023, arXiv: arXiv:2203.11171. doi: 10.48550/arXiv.2203.11171.

[4] S. Yao et al., «Tree of Thoughts: Deliberate Problem Solving with Large Language Models», 3 de diciembre de 2023, arXiv: arXiv:2305.10601. doi: 10.48550/arXiv.2305.10601.

[5] «Árbol de búsqueda Monte Carlo», Wikipedia, la enciclopedia libre. 21 de enero de 2021. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://es.wikipedia.org/w/index.php?title=%C3%81rbol_de_b%C3%BAsqueda_Monte_Carlo&oldid=132591437

[6] Y. Xie et al., «Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning», 17 de junio de 2024, arXiv: arXiv:2405.00451. doi: 10.48550/arXiv.2405.00451.

[7] Z. Gao et al., «Interpretable Contrastive Monte Carlo Tree Search Reasoning», 25 de diciembre de 2024, arXiv: arXiv:2410.01707. doi: 10.48550/arXiv.2410.01707.

[8] J. Hu et al., «Test-Time Learning for Large Language Models», 27 de mayo de 2025, arXiv: arXiv:2505.20633. doi: 10.48550/arXiv.2505.20633.

[9] Y. Sun, X. Wang, Z. Liu, J. Miller, A. Efros, y M. Hardt, «Test-Time Training with Self-Supervision for Generalization under Distribution Shifts», en Proceedings of the 37th International Conference on Machine Learning, PMLR, nov. 2020, pp. 9229-9248. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://proceedings.mlr.press/v119/sun20b.html

[10] Z. Liang, Y. Liu, T. Niu, X. Zhang, Y. Zhou, y S. Yavuz, «Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification», 5 de octubre de 2024, arXiv: arXiv:2410.05318. doi: 10.48550/arXiv.2410.05318.

[11] J. Qi, H. Tang, y Z. Zhu, «VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers», 10 de octubre de 2024, arXiv: arXiv:2410.08048. doi: 10.48550/arXiv.2410.08048.

Afegeix un nou comentari

Not show on Home

Inactiu

Impressió