Somia Skynet amb ovelles elèctriques?

¿Sueña Skynet con ovejas eléctricas?

Els quatre darrers anys hem contribuït a un progrés vertiginós en els grans models de llenguatge (LLM). Per a molts, entre els quals em trobo, el que més crida l’atenció són aquests models que “pensen abans de respondre”, capaços de generar una mena de camí intermedi en què van desgranant passos per resoldre una tasca. La idea és suggeridora: si el model s’atura a “pensar”, potser s’apropa més a com raonem els humans (i ens ajuda a comprendre millor els mecanismes de les nostres pròpies ments). Però convé explicar aquesta història amb calma i sense ornaments. El que aquests sistemes LLM fan bé, ho fan molt bé; el que encara no poden fer, també és important conèixer-ho per no deixar-se ensarronar.

Al començament de l’estiu es va publicar un treball de recerca d’Apple [1] que va encendre una discussió molt interessant. Els autors deien que, a partir de cert llindar de dificultat, els models LLM no només començaven a fallar més, sinó que, a més, reduïen el seu “esforç de raonament” fins i tot quan encara tenien marge de còmput. En els seus experiments, en enfrontar-los a trencaclosques coneguts com les torres de Hanoi amb molts discos, semblava que el model plegava veles abans d’hora. A aquest comportament el van anomenar “fatiga anticipada”. Després d’una anàlisi detallada per part de revisors independents es va revelar que part d’aquest efecte es podia explicar per com estaven dissenyades les proves: tasques amb moltíssims passos, en què una sola ensopegada n’arrossega els següents, i amb exigències de memòria (finestra de context) que superaven el que els LLM avaluats eren capaços de gestionar d’una vegada. En aquest escenari, rendir-se aviat no era tant una “emoció” com una conseqüència pràctica: és difícil persistir per intentar arribar al final si saps que et perdràs pel camí.

Més enllà dels matisos metodològics, l’article d’Apple va tenir un efecte tremendament positiu: va empènyer la comunitat a mesurar millor aquestes estratègies de “pensar en veu alta” i a explorar com fer-les més fiables. Des d’aleshores han sorgit metodologies molt variades. Algunes s’inspiren en hàbits humans que ens funcionen quan resolem problemes: dividir una tasca en passos petits (que anomenarem subpassos), contrastar una idea amb una altra o demanar una segona opinió abans de decidir. D’altres exploren rutes menys intuïtives, com l’entrenament per reforç, que premia comportaments útils encara que no sapiguem explicar-los en forma de paraules. En aquest mapa caben noms com OpenAI [2] o Anthropic, [3] amb línies més “humanes”, i apostes com la de DeepSeek, que proven dreceres diferents. [4]

Una lliçó útil de les investigacions publicades en aquests mesos d’estiu és que, quan un model intenta raonar en cadenes molt llargues, es multiplica la possibilitat de cometre petits errors que després arrosseguen els altres. De vegades passa perquè el sistema s’aferra a una explicació que sona bé i deixa de mirar alternatives, com si adquirís “visió túnel”. [5] D’altres, perquè perd confiança en el seu propi fil de “pensament”, [6] es contradiu i acaba escollint un camí pitjor. Per mitigar això, s’ha provat a fer que el model generi diverses “línies de pensament” en paral·lel i després es quedi amb la més prometedora, [7] o amb una combinació ponderada. Aquests mecanismes milloren els resultats en molts casos, encara que també encareixen computacionalment el procés. En aquesta exploració científica, a més, hem guanyat consciència d’un altre problema conegut: la facilitat amb què els models “s’inventen” detalls. No ho fan per malícia, sinó perquè han après que, en absència de dades, completar una frase amb alguna cosa plausible sol ser millor que callar [8] (el que anomenem tècnicament al·lucinacions, que fins i tot es poden convertir en un problema greu de seguretat informàtica). [9] Just per això s’està investigant ara com ensenyar-los a dubtar, a reconèixer errors i a verificar abans d’afirmar.

Ara bé, la metàfora del títol d’aquesta publicació apunta a una cosa més profunda. Ara per ara, el que anomenem raonament en aquests sistemes continua sent una simulació molt limitada i superficial, com veurem en l’apunt següent d’aquesta sèrie. Els models destaquen quan poden reutilitzar patrons que ja han vist milers de vegades en el seu entrenament. Si canviem els noms de les peces d’un problema, si introduïm dades irrellevants que distrauen o si demanem que generalitzin a estructures noves, el seu acompliment es ressent de manera notable. 

Segons el meu parer, el nom de models “raonadors” és un terme comercial que pot crear confusió, atès que les IA actuals no raonen com els humans. Els resultats evidencien que els models actuals no només tenen limitacions en raonament simbòlic, sinó també en generalització estructural. No construeixen nous significats, ni verifiquen amb intenció. Operen sobre correlacions, no sobre comprensió. Simulen raonament, però no l’experimenten. Altres investigadors com el recent premi Nobel Yann LeCun han debatut molt sobre aquests aspectes. Els LLM fan una cosa diferent, valuosa en molts contextos, però diferent.

Això no disminueix en absolut el valor dels avenços aconseguits, que són enormes i tenen aplicacions reals i beneficioses. Precisament per això convé mantenir una mirada crítica i honesta. Si ens deixem portar per titulars grandiloqüents i carregats de hype, podem confondre la reutilització eficaç de patrons amb pensament profund. I no són el mateix. La reutilització és una gran ajuda per treballar més ràpid i millor en tasques repetides o amb estructura coneguda. El pensament profund, en canvi, apareix quan cal explorar camins nous, descartar opcions, comprovar resultats i, de vegades, canviar de metodologia sobre la marxa. Perquè un sistema automàtic s’acosti a aquest nivell d’intel·ligència de manera fiable ha de poder fer més que concatenar frases: necessita explorar, verificar i aprendre en el mateix procés.

Abans de delegar decisions crítiques en aquests models (en mobilitat autònoma, ciberseguretat, enginyeria de sistemes o fins i tot política), [10] val la pena fer-se dues preguntes senzilles. La primera: Aquest problema s’assembla prou a altres que el model LLM ja ha vist, o li estem demanant que navegui per terreny desconegut? La segona: S’ha fet alguna mena de verificació independent del que proposa, o es tracta únicament d’una resposta que sona convincent per si mateixa? Si responem seriosament a aquestes dues preguntes, evitarem malentesos i prendrem millors decisions. En aquesta sèrie d’apunts m’agradaria seguir justament aquest fil. Al pròxim lliurament veurem per què molts dels èxits dels models LLM són, sobretot, casos brillants de reutilització de patrons; i en un de tercer parlarem d’una cosa que em preocupa especialment: com canvia el nostre propi comportament quan treballem amb aquestes eines i fins a quin punt influeixen en la forma en què pensem i resolem problemes.

En aquest article vull apropar la IA a les persones amb un enfocament útil, responsable i transparent. La meva intenció és compartir de manera didàctica en aquest espai allò que aprenc en els projectes en què treballo a GMV per ajudar a distingir entre expectatives i realitat, i perquè qualsevol persona (des d’estudiants fins a professionals) pugui prendre millors decisions. M’encantaria que seguissis aquesta sèrie, que m’expliquessis els teus dubtes i que converséssim.

Autor: David Miruat

 

REFERÈNCIES:

[1]         P. Shojaee, I. Mirzadeh, K. Alizadeh, M. Horton, S. Bengio i M. Farajtabar, «The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity», 18 de juliol de 2025, arXiv: arXiv:2506.06941. doi: 10.48550/arXiv.2506.06941.

[2]         A. El-Kishky et al., «Learning to Reason with LLMs». OpenAI, setembre de 2024. Accés: 25/09/2025. [En línia]. Disponible a: https://openai.com/index/learning-to-reason-with-llms/

[3]         Y. Chen et al., «Reasoning Models Don’t Always Say What They Think», 8 de maig de 2025, arXiv: arXiv:2505.05410. doi: 10.48550/arXiv.2505.05410.

[4]         D. Guo et al., «DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning», Nature, vol. 645, núm. 8081, p. 633-638, set. 2025, doi: 10.1038/s41586-025-09422-z.

[5]         H. Wen et al., «ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute», 30 d’agost de 2025, arXiv: arXiv:2509.04475. doi: 10.48550/arXiv.2509.04475.

[6]         A. Sinha, A. Arun, S. Goel, S. Staab, i J. Geiping, «The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs», 11 de setembre de 2025, arXiv: arXiv:2509.09677. doi: 10.48550/arXiv.2509.09677.

[7]         W. Zhao, P. Aggarwal, S. Saha, A. Celikyilmaz, J. Weston, i I. Kulikov, «The Majority is not always right: RL training for solution aggregation», 8 de setembre de 2025, arXiv: arXiv:2509.06870. doi: 10.48550/arXiv.2509.06870.

[8]         A. T. Kalai, O. Nachum, S. S. Vempala i E. Zhang, «Why Language Models Hallucinate», 4 de setembre de 2025, arXiv: arXiv:2509.04664. doi: 10.48550/arXiv.2509.04664.

[9]         D. Miraut, «Slopsquatting: una amenaça silenciosa nascuda de les al·lucionacions dels LLM», GMV Blog. Accés: 25/09/2025. [En línia]. Disponible a: https://https://www.gmv.com/ca-es/media/blog/ciberseguretat/slopsquatting-amenaca-silenciosa-nascuda-allucionacions-dels-llm

[10]      RTVE.es, «El Gobierno de Albania nombra a una “ministra” creada con Inteligencia Artificial para acabar con la corrupción», RTVE.es. Accés: 25/09/2025. [En línia]. Disponible a: https://www.rtve.es/noticias/20250912/gobierno-albania-nombra-ministra-creada-inteligencia-artificial-acabar-corrupcion/16726028.shtml

Afegeix un nou comentari

Not show on Home
Inactiu

Source URL: https://www.gmv.com/media/blog/ciberseguretat/somia-skynet-ovelles-electriques