Träumt SkyNet von elektrischen Schafen?

¿Sueña Skynet con ovejas eléctricas?

In den letzten vier Jahren haben wir zu einem rasanten Fortschritt bei großen Sprachmodellen (LLMs) beigetragen. Für viele, mich eingeschlossen, erregen jene Modelle die größte Aufmerksamkeit, die „denken, bevor sie antworten“, die in der Lage sind, eine Art Mittelweg zu finden, auf dem sie die Schritte zur Lösung einer Aufgabe durchlaufen. Der Gedanke ist naheliegend: Wenn das Modell innehält, um zu „denken“, könnte es der Art und Weise, wie wir Menschen denken, näher kommen (und uns helfen, die Mechanismen unseres eigenen Verstandes besser zu verstehen). Aber diese Geschichte sollte in aller Ruhe und ohne Ausschweifungen erzählt werden. Was diese LLM-Systeme gut können, können sie sehr gut; was sie noch nicht können, ist ebenfalls wichtig zu wissen, um nicht getäuscht zu werden.

In diesem Sommer wurde ein Apple-Forschungspapier [1] veröffentlicht, das eine interessante Diskussion ausgelöst hat. Die Autoren schlugen vor, dass LLM-Modelle oberhalb einer bestimmten Schwierigkeitsschwelle nicht nur häufiger versagen, sondern auch ihren „Argumentationsaufwand“ verringern, selbst wenn sie noch einen rechnerischen Spielraum haben. In ihren Experimenten schien das Modell bei Rätseln, die als Hanoi-Türme mit vielen Scheiben bekannt sind, vorzeitig „das Handtuch zu werfen“. Sie nannten dieses Verhalten „antizipatorische Müdigkeit“. Eine detaillierte Analyse durch unabhängige Gutachter ergab, dass ein Teil dieses Effekts durch die Art und Weise erklärt werden könnte, wie die Tests konzipiert waren: Aufgaben mit sehr vielen Schritten, bei denen ein Stolperstein zum nächsten führt, und mit Gedächtnisanforderungen (Kontextfenster), die das übersteigen, was die getesteten LLMs auf einmal bewältigen können. In diesem Szenario war das frühe Aufgeben weniger ein „Nervenkitzel“ als eine praktische Konsequenz: Es ist schwierig, das Ziel zu erreichen, wenn man weiß, dass man sich auf dem Weg verirren wird.

Abgesehen von den methodischen Feinheiten hatte Apples Artikel einen äußerst positiven Effekt: Er gab der Gemeinschaft den Anstoß, diese Strategien des „lauten Denkens“ besser zu messen und zu erforschen, wie man sie zuverlässiger machen kann. Seitdem hat sich eine Vielzahl von Ansätzen herausgebildet. Einige sind von menschlichen Gewohnheiten inspiriert, die uns beim Lösen von Problemen helfen: eine Aufgabe in kleine Schritte aufteilen (die wir Teilschritte nennen), eine Idee mit einer anderen vergleichen oder eine zweite Meinung einholen, bevor wir eine Entscheidung treffen. Andere erforschen weniger intuitive Wege, wie z. B. das Verstärkungstraining, bei dem nützliche Verhaltensweisen belohnt werden, auch wenn wir nicht wissen, wie wir sie in Worten fassen können. Auf dieser Karte finden sich Namen wie OpenAI [2] oder Anthropic [3], mit eher „menschlichen“ Zügen, und Anwendungen wie DeepSeek, die verschiedene Abkürzungen ausprobieren [4].

Eine nützliche Lehre aus den in den Sommermonaten veröffentlichten Forschungsergebnissen ist, dass sich die Möglichkeit, kleine Fehler zu machen, die dann die anderen Ketten beeinträchtigen, vervielfacht, wenn ein Modell versucht, in sehr langen Ketten zu denken. Manchmal geschieht dies, weil sich das System an eine gut klingende Erklärung klammert und nicht mehr nach Alternativen sucht, als ob es einen „Tunnelblick“ entwickelt [5]. Andere, weil sie das Vertrauen in ihren eigenen „Gedankengang“ [6] verlieren, sich selbst widersprechen und am Ende einen schlechteren Weg wählen. Um dies abzumildern, hat man versucht, das Modell mehrere „Denkansätze“ parallel generieren zu lassen und sich dann für den vielversprechendsten [7], oder eine gewichtete Kombination zu entscheiden. Diese Mechanismen verbessern die Ergebnisse in vielen Fällen, machen den Prozess aber auch rechnerisch teurer. Bei dieser wissenschaftlichen Untersuchung sind wir auch auf ein anderes bekanntes Problem aufmerksam geworden: die Leichtigkeit, mit der Modelle Details „erfinden“. Sie tun dies nicht aus Böswilligkeit, sondern weil sie gelernt haben, dass es in Ermangelung von Daten oft besser ist, einen Satz mit etwas Plausiblem zu vervollständigen, als zu schweigen [8] (was wir in der Fachsprache als Halluzinationen bezeichnen, die sogar zu einem ernsten Computersicherheitsproblem werden können [9]). Genau aus diesem Grund wird jetzt geforscht, wie man ihnen beibringen kann, zu zweifeln, Fehler zu erkennen und zu überprüfen, bevor man etwas bejaht.

Die Metapher im Titel dieses Beitrags weist jedoch auf etwas Tiefgründigeres hin. Heute ist das, was wir in diesen Systemen „Denken“ nennen, immer noch eine sehr begrenzte und oberflächliche Simulation, wie wir im nächsten Beitrag dieser Serie sehen werden. Modelle zeichnen sich dadurch aus, dass sie Muster wiederverwenden können, die während ihres Trainings bereits tausendfach gesehen haben. Wenn wir die Namen der Teile eines Problems ändern, wenn wir irrelevante und ablenkende Daten einführen oder wenn wir sie auffordern, auf neue Strukturen zu verallgemeinern, leidet ihre Leistung erheblich. 

Meiner Meinung nach ist die Bezeichnung „denkende“ Modelle ein irreführender Marketingbegriff, da die heutigen KIs nicht wie Menschen denken. Die Ergebnisse zeigen, dass die derzeitigen Modelle nicht nur beim symbolischen Denken, sondern auch bei der strukturellen Verallgemeinerung Grenzen haben. Sie konstruieren keine neuen Bedeutungen und überprüfen auch nicht bewusst. Sie arbeiten mit Korrelationen, nicht mit Verständnis. Sie simulieren das Denken, erleben es aber nicht. Andere Forscher, wie der jüngste Nobelpreisträger Yann LeCun, haben diese Fragen ausführlich erörtert. LLMs machen etwas anderes, wertvoll in vielen Zusammenhängen, aber anders.

Dies schmälert in keiner Weise den Wert der erzielten Fortschritte, die enorm sind und echte und nützliche Anwendungen haben. Gerade deshalb ist es wichtig, einen kritischen und ehrlichen Blick zu behalten. Wenn wir uns von großspurigen und hypebeladenen Schlagzeilen mitreißen lassen, verwechseln wir möglicherweise die effektive Wiederverwendung von Mustern mit tiefgründigem Denken. Und das ist nicht dasselbe. Wiederverwendung ist eine große Hilfe, um schneller und besser an wiederkehrenden Aufgaben oder Aufgaben mit bekannter Struktur zu arbeiten. Tiefgründiges Denken hingegen entsteht, wenn neue Wege beschritten, Optionen verworfen, Ergebnisse überprüft und manchmal auch der Fokus spontan geändert werden muss. Damit ein automatisches System zuverlässig an diese Intelligenz herankommt, muss es mehr können als nur Sätze aneinanderzureihen: Es muss den Prozess selbst erkunden, überprüfen und lernen.

Bevor kritische Entscheidungen an diese Modelle delegiert werden (in der autonomen Mobilität, der Cybersicherheit, der Systemtechnik oder sogar in der Politik [10]), lohnt es sich, zwei einfache Fragen zu stellen. Erstens: Ist dieses Problem anderen, die das LLM-Modell bereits gesehen hat, hinreichend ähnlich, oder verlangen wir von ihm, dass es sich auf unbekanntem Gebiet bewegt? Zweitens: Wurde das, was sie vorschlagen, von unabhängiger Seite überprüft, oder handelt es sich nur um eine Antwort, die für sich genommen überzeugend klingt? Wenn wir diese beiden Fragen ernsthaft beantworten, werden wir Missverständnisse vermeiden und bessere Entscheidungen treffen. In dieser Beitragsreihe möchte ich genau diesen Faden verfolgen. In der nächsten Folge werden wir erörtern, warum viele der erfolgreichen LLM-Modelle vor allem brillante Fälle von Musterwiederverwendung sind; und in einer dritten Folge werden wir über etwas sprechen, das mir besonders am Herzen liegt: wie sich unser eigenes Verhalten ändert, wenn wir mit diesen Werkzeugen arbeiten, und wie sehr sie die Art und Weise beeinflussen, wie wir denken und Probleme lösen.

In diesem Artikel möchte ich den Menschen KI mit einem nützlichen, verantwortungsvollen und transparenten Ansatz näher bringen. Meine Absicht ist es, in diesem Bereich auf didaktische Weise zu vermitteln, was ich in den Projekten, an denen ich im Rahmen von GMV arbeite, lerne, um zwischen Erwartungen und Realität zu unterscheiden, und damit jeder (vom Studenten bis zum Experten) bessere Entscheidungen treffen kann. Ich würde mich freuen, wenn Sie diese Serie verfolgen, mir Ihre Fragen stellen und mit mir diskutieren.

Autor: David Miruat

 

REFERENZEN:

[1] P. Shojaee, I. Mirzadeh, K. Alizadeh, M. Horton, S. Bengio und M. Farajtabar, „The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity“, 18. Juli 2025, arXiv: arXiv:2506.06941. doi: 10.48550/arXiv.2506.06941.

[2] A. El-Kishky et al., "Learning to Reason with LLMs". OpenAI, September 2024. Aufgerufen: 25.09.2025 [Online]. Verfügbar unter: https://openai.com/index/learning-to-reason-with-llms/

[3] Y. Chen et al., „Reasoning Models Don't Always Say What They Think“, 8. Mai 2025, arXiv: arXiv:2505.05410. doi: 10.48550/arXiv.2505.05410.

[4] D. Guo et al., „DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning“, Nature, vol. 645, Nr. 8081, S. 633-638, sep. 2025, doi: 10.1038/s41586-025-09422-z.

[5] H. Wen und andere, „ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute“, 30. August 2025, arXiv: arXiv:2509.04475. doi: 10.48550/arXiv.2509.04475.

[6] A. Sinha, A. Arun, S. Goel, S. Staab, und J. Geiping, „The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs“, 11. September 2025, arXiv: arXiv:2509.09677. doi: 10.48550/arXiv.2509.09677.

[7] W. Zhao, P. Aggarwal, S. Saha, A. Celikyilmaz, J. Weston, und I. Kulikov, „The Majority is not always right: RL training for solution aggregation“, 8. September 2025, arXiv: arXiv:2509.06870. doi: 10.48550/arXiv.2509.06870.

[8] A. T. Kalai, O. Nachum, S. S. Vempala, und E. Zhang, „Why Language Models Hallucinate“, 4. September 2025, arXiv: arXiv:2509.04664. doi: 10.48550/arXiv.2509.04664.

[9] D. Miraut, „Slopsquatting: eine stille Bedrohung, geboren aus den Halluzinationen der LLMs“, GMV Blog. Aufgerufen: 25.09.2025 [Online]. Verfügbar unter: https://www.gmv.com/es-es/media/blog/ciberseguridad/slopsquatting-amenaza-silenciosa-nacida-alucinaciones-llms

[10] RTVE.es, „El Gobierno de Albania nombra a una „ministra“ creada con Inteligencia Artificial para acabar con la corrupción“, RTVE.es. Aufgerufen: 25.09.2025 [Online]. Verfügbar unter: https://www.rtve.es/noticias/20250912/gobierno-albania-nombra-ministra-creada-inteligencia-artificial-acabar-corrupcion/16726028.shtml

Neuen Kommentar hinzufügen

Not show on Home
Inactiu

Source URL: https://www.gmv.com/media/blog/alle-cybersicherheit/traeumt-skynet-von-elektrischen-schafen