Eine Reise zum Zentrum des simulierten Denkens

28/01/2026

Drucken

Viaje al centro del razonamiento simulado

Im ersten Beitrag dieser Serie haben eine einfache Überlegung verteidigt: Große Sprachmodelle (LLMs) glänzen, wenn sie bereits gesehene Muster erkennen und neu kombinieren können, und straucheln, wenn wir sie auffordern, auf wenig vertrautem Terrain eine neue Regel zu finden. In diesem zweiten Beitrag vertiefen wir diese Überlegungen, um die Grenzen und Herausforderungen der künftigen allgemeinen künstlichen Intelligenz (KI) zu verstehen. Dazu gehört auch, dass wir verstehen, was genau „Denken“ für eine KI bedeutet und warum sie dies heute manchmal zu tun scheint.

Um diese Frage zu beantworten, ohne die Dinge zu verkomplizieren, sollten wir über zwei Arten der Problemlösung nachdenken: Eine davon ist, ein vertrautes Bild wiederzuerkennen, nachdem man es auswendig gelernt hat, so wie man ein Rezept liest und es Schritt für Schritt befolgt, ohne etwas zu erfinden. Die andere erfordert Erkundung, Ausprobieren, Fehler machen und mit etwas Glück eine neue Regel finden, die uns die Mühe erspart. Somit bezeichnen wir Muster als Wiederverwendungen, die Formen von Problemen erkennen, Lücken füllen und kohärente Antworten geben und als Entdeckungen, wenn sie Alternativen erkunden, diese nach Kriterien verwerfen, Zwischenschritte überprüfen und mit etwas Glück neue Regeln finden, mit denen sich das Problem handhaben lässt. Ersteres erklärt viele alltägliche Erfolge der KI; letzteres verbinden wir mit „tiefgründigem Denken“.

Es ist nicht immer leicht, zwischen beiden zu unterscheiden, wenn man nur das Ergebnis heranzieht. Ein LLM-Modell mag durch die bloße Vertrautheit mit ähnlichen Aufgaben richtig liegen, indem es die Teile effizient zusammenfügt, und von außen betrachtet mag es den Anschein erwecken, dass es tiefgründig „nachgedacht“ hat. Woher wissen wir nun, ob ein Modell beim Antworten etwas „entdeckt“ und sich nicht nur „erinnert“? Die Versuchung ist groß, anhand von Listen mit schwierigen Fragen die richtigen Lösungen messen, aber diese Art der Bewertung kann irreführend sein. Wenn dieser Test zu sehr dem ähnelt, was bereits im Internet kursiert (und woraus viele LLM in ihrer Lernphase schöpfen), kann sich das Modell aufgrund dessen auszeichnen, was es abgespeichert hat und nicht aufgrund einer geistigen Erkundung.

Sinnvoll ist also, nicht nur zu prüfen, ob das Modell richtig liegt, sondern auch, wie es zu seiner Antwort gelangt ist. Die Überlegung ist einfach und sehr menschlich: Wenn wir wissen wollen, ob jemand wirklich Bescheid weiß, geben wir ihm nicht das Problem, das er bereits geübt hat, sondern ein ähnliches, aber mit einer Abwandlung, und sehen, wie er damit zurechtkommt. Was wir suchen, ist nicht nur eine korrekte Antwort, sondern Anzeichen für einen guten Prozess: dass das System mit Bedacht verwirft, dass es prüft, was es behauptet, und dass es korrigiert, wenn es ins Stolpern gerät. Aus diesem Grund haben in den letzten Monaten Bewertungen mit interaktiven und sich verändernden Umgebungen, die die Vorteile des Auswendiglernens verringern und eine fliegende Anpassung erzwingen, an Bedeutung gewonnen. Ein Beispiel dafür ist ARC-AGI-3, das spontan völlig neue kleine Welten aufbaut und die Effizienz misst, mit der ein Agent Fähigkeiten in Szenarien erwirbt, die er vorher noch nicht gesehen hat [1]. Auch GAMEBoT wertet Entscheidungen im Verlauf von Spielen aus und macht den Zwischenprozess öffentlich, was dazu beiträgt, echte Strategie von einfachen einmaligen Erfolgen zu unterscheiden [2].

Parallel dazu wurden, wie im vorigen Beitrag angedeutet, einfache Möglichkeiten vorgeschlagen, bei der Erstellung von Antworten besser zu „denken“. Eine der am besten zugänglichen Möglichkeiten besteht darin, vom Modell zu verlangen, dass es mehrere parallele Überlegungen anstellt und dann die stimmigste auswählt. Diese als Selbstkonsistenz bekannte Technik, beruht auf einem vernünftigen Prinzip: Dasselbe richtige Problem kann auf verschiedenen Wegen erreicht werden; der Vergleich mehrerer Wege verringert zufällige Fehler und verbessert die Zuverlässigkeit des Ergebnisses. [3]. Ein anderer Ansatz, der Gedankenbaum, lädt dazu ein, nicht nur einem einzigen Faden zu folgen, sondern Verzweigungen zu erforschen, zurückzugehen, wenn etwas nicht passt, und das, was funktioniert, zu konsolidieren, so wie es jeder von uns bei einem Problem mit Stift und Papier tun würde. [4]. Bei Aufgaben, bei denen der Optionsraum schnell wächst, beinhalten einige Ansätze eine MonteCarlo-Baumsuche, um diese Erkundung geordneter und überprüfbarer auszurichten, anstatt die Gedankengänge blind zu vervielfachen. [6,7].

Gerade bei schnell wachsenden Problemen wird der Unterschied zwischen Wiederholung und Entdeckungschnell deutlich. Stellen Sie sich ein Labyrinth vor, das sich an jeder Ecke in drei oder vier neue Gänge verzweigt; bei zwei Abzweigungen ist es überschaubar, bei zehn beginnt es überwältigend zu werden, bei zwanzig verwandelt es sich in einen Dschungel, in dem die Bäume uns nicht mehr weiter sehen lassen. Als Menschen überleben wir hier durch „Abkürzungen“: Wir sortieren Wege intuitiv aus, suchennach Zeichen, die uns den Weg weisen und erinnern uns an Muster aus anderen Labyrinthen. Auch ein automatisches System braucht diese „Abkürzungen“, damit es sich nicht verliert. Wenn das Modell eine richtige Antwort gibt, liegt das manchmal nicht daran, dass es alles erforscht hat, sondern daran, dass jemand zuvor herausgefunden hat, wie die Möglichkeiten eingegrenzt und Wege ausgewählt werden können und dass dieser Trick in den Parametern des Modells abgespeichert wurde. Darin liegt ein großer Teil der praktischen Magie von LLM: Sie greifen mit schwindelerregender Geschwindigkeit auf gute Ideen aus der Vergangenheit zurück.

Es erscheinen ebenfalls Ansätze zur Anpassung von Modellen während ihrer Anwendung, wenn der Kontext dies erfordert. Unter der Bezeichnung „Test-Time Learning“zeigen mehrere Untersuchungen, dass es möglich ist, das Verhalten dieser Systeme anhand der eigenen Daten geringfügig anzupassen, die sie während ihrer Ausführung analysieren, und zwar ohne menschliche Kennzeichnung und mit lokalisierten Änderungen. Damit wurden bei Unstimmigkeiten zwischen dem, was das Modell weiß, und dem was konkret verlangt wird, bemerkenswerte Verbesserungen erzielt. Die Idee wäre, „beim Antworten ein bisschen zu lernen“ und dabei Mechanismen einzusetzen, um das nicht zu vergessen, was bereits gut war.[8,9]. Eine anderer, ergänzender Ansatz verknüpft Generierung und Verifizierung in der Inferenz selbst: Anstatt eine von mehreren Ketten auszuwählen, wird ein Verifizierer trainiert oder angeleitet, der mit demselben Rechenbudget zu einer besseren Entscheidung beiträgt. [10,11].

Nicht zu vergessen sind dabei auch die praktischen Grenzen. Eine eingehende Untersuchung erfordert Zeit und Energie, im wahrsten Sinne des Wortes. Wenn wir von einem System verlangen, viele Hypothesen zu mischen, Teilschritte zu überprüfen und sich zu merken, was es bereits getestet hat, verbrauchen wir mehr Rechenressourcen. Das ist nicht dramatisch, sondern eine Design-Entscheidung: Wenn es sich bei einem Problem lohnt (z. B. eine medizinische Diagnose, ein komplexer Missionspfad, ein Sicherheits-Audit ...), ist es eventuell angebracht, für diese Entdeckung und einen sorgfältigeren Prozess zu „bezahlen“. Bei alltäglichen, wiederholt auftretenden Problemen (z. B. E-Mails, Zusammenfassungen oder Übersetzungen) ist es eventuell sinnvoll, die Schnelligkeit der Wiederverwendung von Mustern beizubehalten. Es geht nicht darum, Wunder zu erwarten, sondern zu verstehen, was wirklich unter der Oberfläche vor sich geht, um das richtige Werkzeug für die anstehende Aufgabe zu wählen: zu wissen, wann ein schnelles Werkzeug ausreicht und wann wir eines brauchen, das wirklich erforscht.

Im Sinne des ersten Beitrags würden wir sagen, dass es keinen Sinn macht, einen Hammer zu verlangen, der Schrauben drehen kann. Ebenso macht es keinen Sinn, einen Hammer als Werkzeugsatz mit unendlichen Möglichkeiten zu verkaufen. Bei Sprachmodellen besteht ein verantwortungsbewusster Ansatz darin, ihren Wert als Beschleuniger für Aufgaben mit bekannter Struktur anzuerkennen und gleichzeitig anzuerkennen, dass tiefes Denken das Erforschen, Überprüfen und manchmal auch das Lernen von etwas Neuem während des Prozesses selbst erfordert. Dies undifferenziert als „Denken“ zu bezeichnen, ist irreführend; es gänzlich zu leugnen, wäre ebenfalls unfair. Meines Erachtens kommt es darauf an, dass man sich über die Erwartungen im klaren ist.

Bei meiner Arbeit bei GMV versuche ich, diesen Ansatz auf reale Projekte anzuwenden. Ein Teil meiner Aufgaben besteht darin, KI in Bereichen weiterzuentwickeln, nutzbar zu machen und verantwortungsbewusst einzusetzen, in denen die qualitative Messlatte sehr hoch legt. In diesem Artikel möchte ich das teilen, was ich gelernt habe, damit jeder (von denjenigen, die gerade erst anfangen, bis zu denen, die schon seit Jahren dabei sind) zwischen scheinbarer Brillanz und echtem Fortschritt unterscheiden kann. Wenn diese Artikelserie dazu beigetragen hat, dass Sie KI in einer von Hype überladenen Welt etwas gelassener betrachten, dann hat sie ihren Zweck erfüllt. Im dritten Teil werde ich über uns sprechen, darüber, wie sich unser eigenes Verhalten ändert, wenn wir mit diesen Werkzeugen arbeiten, und warum diese Veränderung genauso viel Aufmerksamkeit verdient wie die Algorithmen.

Autor: David Miraut

REFERENZEN:

[1] «ARC-AGI-3», ARC Prize. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://arcprize.org/arc-agi/3/

[2] W. Lin, J. Roberts, Y. Yang, S. Albanie, Z. Lu, y K. Han, «GAMEBoT: Transparent Assessment of LLM Reasoning in Games», en Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), W. Che, J. Nabende, E. Shutova, y M. T. Pilehvar, Eds., Vienna, Austria: Association for Computational Linguistics, jul. 2025, pp. 7656-7682. doi: 10.18653/v1/2025.acl-long.378.

[3] X. Wang et al., «Self-Consistency Improves Chain of Thought Reasoning in Language Models», 7 de marzo de 2023, arXiv: arXiv:2203.11171. doi: 10.48550/arXiv.2203.11171.

[4] S. Yao et al., «Tree of Thoughts: Deliberate Problem Solving with Large Language Models», 3 de diciembre de 2023, arXiv: arXiv:2305.10601. doi: 10.48550/arXiv.2305.10601.

[5] «Árbol de búsqueda Monte Carlo», Wikipedia, la enciclopedia libre. 21 de enero de 2021. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://es.wikipedia.org/w/index.php?title=%C3%81rbol_de_b%C3%BAsqueda_Monte_Carlo&oldid=132591437

[6] Y. Xie et al., «Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning», 17 de junio de 2024, arXiv: arXiv:2405.00451. doi: 10.48550/arXiv.2405.00451.

[7] Z. Gao et al., «Interpretable Contrastive Monte Carlo Tree Search Reasoning», 25 de diciembre de 2024, arXiv: arXiv:2410.01707. doi: 10.48550/arXiv.2410.01707.

[8] J. Hu et al., «Test-Time Learning for Large Language Models», 27 de mayo de 2025, arXiv: arXiv:2505.20633. doi: 10.48550/arXiv.2505.20633.

[9] Y. Sun, X. Wang, Z. Liu, J. Miller, A. Efros, y M. Hardt, «Test-Time Training with Self-Supervision for Generalization under Distribution Shifts», en Proceedings of the 37th International Conference on Machine Learning, PMLR, nov. 2020, pp. 9229-9248. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://proceedings.mlr.press/v119/sun20b.html

[10] Z. Liang, Y. Liu, T. Niu, X. Zhang, Y. Zhou, y S. Yavuz, «Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification», 5 de octubre de 2024, arXiv: arXiv:2410.05318. doi: 10.48550/arXiv.2410.05318.

[11] J. Qi, H. Tang, y Z. Zhu, «VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers», 10 de octubre de 2024, arXiv: arXiv:2410.08048. doi: 10.48550/arXiv.2410.08048.

Drucken

Eine Reise zum Zentrum des simulierten Denkens

Comments

Klartext

Verwandt