Podróż do centrum rozumowania

28/01/2026

Drukuj

Viaje al centro del razonamiento simulado

W pierwszym poście z tej serii argumentowaliśmy za prostą ideą: świetne modele językowe (LLM) błyszczą, gdy mogą rozpoznawać i łączyć wzorce, z którymi miały już do czynienia, gdy prosimy je o znalezienie nowej reguły na „nieznanym terenie”. Ten drugi post zgłębia te idee, aby zrozumieć ograniczenia i wyzwania przyszłej ogólnej sztucznej inteligencji (skrót od angielskich słów Artificial General Intelligence – AGI), co wiąże się ze zrozumieniem, co dokładnie oznacza „myślenie” dla sztucznej inteligencji i dlaczego czasami wydaje się, że aktualnie właśnie to ona robi.

Aby odpowiedzieć bez komplikowania sprawy, zastanówmy się nad dwoma sposobami rozwiązywania problemów. Jednym z nich jest rozpoznanie znajomej sytuacji po nauczeniu się jej pamięć, tak jak wtedy, gdy czytamy przepis i postępujemy zgodnie z nim krok po kroku, niczego nie zmieniając. Drugi wymaga odkrywania, próbowania, popełniania błędów i – przy odrobinie szczęścia – znalezienia nowej zasady, która pozwoli nam oszczędzić czas. Dlatego też będziemy nazywać ponownym wykorzystaniem wzorców rozpoznanie kształtu problemu, wypełnienie luk i zapewnienie spójnej odpowiedzi; a odkrywaniem – zbadanie alternatyw, rozsądne ich odrzucenie, sprawdzenie kroków pośrednich i – miejmy nadzieję – znalezienie nowej reguły, która sprawi, że rozwiązanie problemu stanie się możliwe. Pierwszy z nich stanowi podstawę wielu codziennych sukcesów AI. Drugi jest tym, co kojarzymy z „głębokim myśleniem”.

Nie zawsze łatwo jest rozróżnić te dwie rzeczy, gdy bierzemy pod uwagę jedynie wynik. Model LLM może zapewnić poprawny rezultat, bo zna podobne zadania i sprawne dopasowuje elementy do siebie, a z zewnątrz może wydawać się, że dokonał tego, ponieważ „rozumował” w dogłębny sposób. Skąd więc mamy wiedzieć, czy model coś „odkrywa” w ramach reakcji, a nie tylko działa na podstawie tego, co zapamiętał? Można pokusić się o skorzystanie z list trudnych pytań i mierzenie sukcesów, ale ten sposób oceny może być mylący. Jeśli zadanie jest bardzo podobne do tego, co już krąży w Internecie (na czym uczy się wiele modeli LLM), model może się sprawdzić na podstawie tego, co zapamiętał, a nie na podstawie rozumowania.

Warto więc ocenić nie tylko to, czy model ma rację, ale także to, w jaki sposób zapewnił prawidłową odpowiedź. Pomysł jest prosty i bardzo ludzki: Jeśli chcemy sprawdzić, czy ktoś naprawdę się na czymś zna, nie dajemy mu problemu, który już rozwiązał, ale podobny – z zaskakującym utrudnieniem – i sprawdzamy, jak sobie poradzi. Tak samo jest ze sztuczną inteligencją. To, czego szukamy, to nie tylko poprawna odpowiedź, ale oznaki dobrego procesu: to, czy system rozsądnie odrzuca opcje, czy sprawdza to, co stwierdza, i czy poprawia ewentualne pomyłki. Z tego powodu w ostatnich miesiącach na znaczeniu zyskały oceny powiązane z interaktywnymi i zmieniającymi się środowiskami, które zmniejszają korzyści płynące z tego, co zapamiętane, oraz wymuszają adaptację na bieżąco. Jednym z przykładów jest model ARC-AGI-3, który na bieżąco buduje zupełnie nowe małe światy i mierzy skuteczność, z jaką agent nabywa umiejętności w scenariuszach, z którymi wcześniej nie miał kontaktu [1]. Także GAMEBoT ocenia decyzje w trakcie sesji i upublicznia proces pośredni, co pomaga oddzielić prawdziwą strategię od prostych jednorazowych trafień [2].

Równolegle, jak wskazaliśmy w poprzednim poście, zaproponowaliśmy proste sposoby na lepsze „myślenie” podczas generowania odpowiedzi. Jedną z najbardziej przystępnych jest poproszenie modelu o kilka równoległych pomysłów i zachowanie najbardziej spójnego. Technika ta, znana jako samoświadomość (self-consistency), opiera się na racjonalnej zasadzie: do tego samego poprawnego problemu można podejść różnymi drogami; porównanie kilku dróg zmniejsza przypadkowe błędy i poprawia wiarygodność wyniku. [3]. Inne podejście, drzewo myśli (tree of thoughts), bazuje na tym, aby nie podążać za jednym wątkiem, lecz odkrywać opcje, wracać, jeśli coś się nie zgadza, i konsolidować to, co działa, tak jak każdy z nas zrobiłby to, rozwiązując problem z wykorzystaniem długopisu i kartki papieru [4]. W zadaniach, w których liczba opcji szybko rośnie, niektóre propozycje obejmują przeszukiwanie drzewa MonteCarlo [5], aby kierować tym procesem w bardziej uporządkowany i weryfikowalny sposób, zamiast mnożyć ślepe ścieżki rozumowania [6,7].

To właśnie w przypadku szybko rozwijających się problemów różnica między powtarzaniem a odkrywaniem szybko staje się oczywista. Wyobraźmy sobie labirynt, który na każdym rogu rozwidla się na trzy lub cztery nowe przejścia. Przy dwóch jest to do opanowania, przy dziesięciu zaczyna być przytłaczające, a przy dwudziestu zamienia się w dżunglę, w której drzewa uniemożliwiają orientację. My, ludzie, radzimy sobie dzięki „skrótom”: odrzucamy przejścia, kierując się intuicją, szukamy znaków, które nas poprowadzą, przypominamy sobie wzorce z innych labiryntów. Automatyczny system również potrzebuje tych „skrótów”, aby się nie pogubić. Kiedy model podaje poprawne rozwiązanie, czasami jest tak nie dlatego, że zbadał wszystko, ale dlatego, że ktoś wcześniej odkrył sposób na „przycinanie” możliwości, wybieranie ścieżek, a ta sztuczka została zapisana w jego parametrach. Na tym polega większość magii funkcjonowania LLM: wykorzystywanie dobrych pomysłów z przeszłości w zawrotnym tempie.

Pojawiają się bardziej zaawansowane propozycje, aby dostosować model w czasie użytkowania, gdy wymaga tego kontekst. Różne badania pod nazwą Test-Time Learning wykazały, że możliwe jest nieznaczne dostosowanie reagowania tych systemów za pomocą samych danych, które one analizują w momencie wykonywania danej operacji, bez ludzkich etykiet i z lokalnymi zmianami, co zapewnia zauważalną poprawę, gdy występują rozbieżności między tym, co model wie, a tym, co powinien wiedzieć w danym przypadku. Idea polega na „uczeniu się podczas odpowiadania”, przy użyciu mechanizmów zaprojektowanych tak, aby model nie zapominał tego, co już się sprawdziło [8,9]. Inne komplementarne podejście łączy generowanie i weryfikację w samym wnioskowaniu: zamiast wybierać spośród wielu łańcuchów, szkoli się weryfikatora lub kieruje nim, aby pomóc w podjęciu lepszej decyzji przy tym samym budżecie obliczeniowym [10,11].

Istnieją również praktyczne ograniczenia, o których nie należy zapominać. Dogłębna eksploracja wymaga czasu i energii, w dosłownym tego słowa znaczeniu. Jeśli poprosimy system o rozważenie wielu hipotez, sprawdzenie podetapów i zapamiętanie tego, co już przetestował, zużywamy więcej zasobów obliczeniowych. Nie jest to dramatyczne, to decyzja projektowa: jeśli problem na to zasługuje (np. diagnoza medyczna, złożona ścieżka misji, audyt bezpieczeństwa), może warto zainwestować w te „odkrycia” i w proces odznaczający się większą dokładnością. Jeśli zadanie ma charakter codzienny, powtarzalny (np. e-mail, podsumowanie czy tłumaczenie), sensowne może być postawienie na szybkość ponownego wykorzystania wzorców. Nie można oczekiwać cudów, chodzi o zrozumienie, co naprawdę dzieje się pod powierzchnią, aby wybrać odpowiednie narzędzie do danego zadania – wiedząc, kiedy wystarczy szybkie narzędzie, a kiedy potrzebujemy narzędzia, które naprawdę bada i odkrywa.

Nawiązując do pierwszego postu, możemy powiedzieć, że nie ma sensu stosowanie młotka do wkręcania śrub; nie ma też sensu sprzedawanie młotka tak, jakby był zestawem narzędzi o nieskończonych możliwościach. W przypadku modeli językowych odpowiedzialnym podejściem jest uznanie ich wartości jako akceleratorów zadań o znanej strukturze, jednocześnie pamiętając, że głębokie myślenie wymaga eksploracji, weryfikacji, a czasem uczenia się czegoś nowego podczas samego procesu. Nazywanie tego „rozumowaniem” bez wzięcia pod uwagę niuansów jest mylące; jednocześnie całkowite zaprzeczenie temu też mijałoby się z prawdą. Myślę, że chodzi tu głównie o jasne określenie oczekiwań.

W mojej pracy w GMV staram się stosować to podejście w rzeczywistych projektach. Częścią mojej pracy jest sprawienie, by sztuczna inteligencja ewoluowała, była użyteczna i odpowiedzialna w sektorach, w których poprzeczka jakości jest bardzo wysoko postawiona. W tym artykule dzielę się tym, czego się nauczyłem, aby każdy (od tych, którzy dopiero zaczynają, po tych, którzy robią to od lat) mógł odróżnić pozorną błyskotliwość od prawdziwego postępu. Jeśli ta seria postów pomogła ci spojrzeć na sztuczną inteligencję nieco spokojniej w świecie przeładowanym szumem, to spełniła swoje zadanie. W trzeciej części opowiem o nas, o tym, jak zmienia się nasze własne zachowanie, gdy korzystamy z tych rozwiązań, i dlaczego ta zmiana zasługuje na tyle samo uwagi co algorytmy.

Autor(ka): David Miruat

BIBLIOGRAFIA:

[1] „ARC-AGI-3”, ARC Prize. Dostęp: 25 września 2025 [online], https://arcprize.org/arc-agi/3/.

[2] W. Lin, J. Roberts, Y. Yang, S. Albanie, Z. Lu, y K. Han, „GAMEBoT: Transparent Assessment of LLM Reasoning in Games”, w: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), W. Che, J. Nabende, E. Shutova, y M. T. Pilehvar, Wyd., Wiedeń, Austria: Association for Computational Linguistics, lipiec 2025, s. 7656-7682. doi: 10.18653/v1/2025.acl-long.378.

[3] X. Wang et al., „Self-Consistency Improves Chain of Thought Reasoning in Language Models”, 7 de marzo de 2023, arXiv: arXiv:2203.11171. doi: 10.48550/arXiv.2203.11171.

[4] S. Yao et al., „Tree of Thoughts: Deliberate Problem Solving with Large Language Models”, 3 grudnia 2023, arXiv: arXiv:2305.10601. doi: 10.48550/arXiv.2305.10601.

[5] „Árbol de búsqueda Monte Carlo”, Wikipedia, la enciclopedia libre. 21 stycznia 2021. Dostęp: 25 września 2025 [online], https://es.wikipedia.org/w/index.php?title=%C3%81rbol_de_b%C3%BAsqueda_Monte_Carlo&oldid=132591437.

[6] Y. Xie et al., „Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning”, 17 czerwca 2024, arXiv: arXiv:2405.00451. doi: 10.48550/arXiv.2405.00451.

[7] Z. Gao et al., „Interpretable Contrastive Monte Carlo Tree Search Reasoning”, 25 grudnia 2024, arXiv: arXiv:2410.01707. doi: 10.48550/arXiv.2410.01707.

[8] J. Hu et al., „Test-Time Learning for Large Language Models”, 27 maja 2025, arXiv: arXiv:2505.20633. doi: 10.48550/arXiv.2505.20633.

[9] Y. Sun, X. Wang, Z. Liu, J. Miller, A. Efros, y M. Hardt, „Test-Time Training with Self-Supervision for Generalization under Distribution Shifts”, w: Proceedings of the 37th International Conference on Machine Learning, PMLR, listopad 2020, s. 9229-9248. Dostęp: 25 września 2025 [online], https://proceedings.mlr.press/v119/sun20b.html.

[10] Z. Liang, Y. Liu, T. Niu, X. Zhang, Y. Zhou, y S. Yavuz, „Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification”, 5 października 2024, arXiv: arXiv:2410.05318. doi: 10.48550/arXiv.2410.05318.

[11] J. Qi, H. Tang, y Z. Zhu, „VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers”, 10 października 2024, arXiv: arXiv:2410.08048. doi: 10.48550/arXiv.2410.08048.

Drukuj

Podróż do centrum rozumowania

Comments

Czysty tekst

Powiązane