Carsten Wawer

Geschäftsführer SQUIRREL & NUTS digital

Digitale Lösungen für gesellschaftliche Akteure

Software-Entwickler

AI-Evangelist

Carsten Wawer

Geschäftsführer SQUIRREL & NUTS digital

Digitale Lösungen für gesellschaftliche Akteure

Software-Entwickler

AI-Evangelist

Menu
Beitrag

Die Illusion des Denkens: Warum Large Reasoning Models unsere politische Kommunikation nicht retten werden (und was wir stattdessen brauchen)

6. Juni 2025 Allgemeines
Die Illusion des Denkens: Warum Large Reasoning Models unsere politische Kommunikation nicht retten werden (und was wir stattdessen brauchen)

Künstliche Intelligenz ist dabei, die gesellschaftliche Kommunikation grundlegend zu verändern. Ob als Chatbot in der Bürgerberatung, als Assistenzsystem für digitale Beteiligung oder als automatisierte Antwortinstanz in der Verwaltung – KI wird überall dort eingesetzt, wo Effizienz gefragt ist. Gleichzeitig wächst die Hoffnung, dass moderne Sprachmodelle nicht nur schneller und freundlicher antworten, sondern auch wirklich „nachdenken“ können. Diese Idee ist verführerisch. Sie verspricht, dass Maschinen nicht nur mit Sprache umgehen, sondern auch durchdachte Entscheidungen treffen, Sachverhalte abwägen und komplexe Zusammenhänge verstehen können. Doch was ist dran an dieser Vorstellung?

Eine aufsehenerregende Studie von Apple-Forschenden trägt einen treffenden Titel: „The Illusion of Thinking“. Und sie hält, was sie verspricht. In einer Reihe sorgfältig konstruierter Tests zeigt die Untersuchung, dass die sogenannten Large Reasoning Models – also Sprachmodelle, die mit „Denkfunktionen“ ausgestattet wurden – in Wahrheit keineswegs denken. Sie tun nur so. Das hat weitreichende Konsequenzen, besonders wenn solche Systeme in der politischen Kommunikation eingesetzt werden.

Die Apple-Studie verzichtet bewusst auf die bekannten mathematischen Benchmarks, die häufig mit Trainingsdaten durchsetzt sind und reale Fähigkeiten verzerren. Stattdessen konstruieren die Forschenden vier eigene Puzzle-Umgebungen, in denen sie die Aufgaben-Komplexität exakt kontrollieren können. Tower of Hanoi, Checker Jumping, River Crossing und Blocks World – diese Denkspiele fordern algorithmisches, planvolles Vorgehen. Die eingesetzten Modelle müssen Zwischenschritte entwickeln, mehrere Optionen gegeneinander abwägen und unter klaren Regeln zum Ziel kommen.

Das Ergebnis ist ernüchternd. Zwar zeigen die Reasoning-Modelle in Aufgaben mittlerer Komplexität gewisse Vorteile gegenüber ihren weniger „denkenden“ Verwandten. Aber sobald es wirklich anspruchsvoll wird, kollabieren sie. Und das auf eine paradoxe Weise: Statt bei steigender Schwierigkeit mehr Denkaufwand zu betreiben, tun sie das Gegenteil. Sie kürzen ihre eigenen Denkprozesse ab, reduzieren die Ausgaben an Tokens und scheitern an der Aufgabe – obwohl sie rechentechnisch durchaus noch Kapazitäten hätten. Diese selbstlimitierende Strategie ist kein Zeichen von Intelligenz, sondern von strukturellem Missverständnis.

Besonders frappierend ist, dass auch das Mitgeben einer funktionierenden Lösung – etwa in Form eines Algorithmus – nicht hilft. Die Modelle bekommen es nicht hin, die Schritte korrekt umzusetzen. Das Denken, das sie simulieren, ist eben keine echte Abfolge logischer Operationen. Es ist ein sprachliches Schauspiel. Eine plausible Simulation. Eine Illusion.

In politischen Kontexten ist das besonders problematisch. Wenn ein System auf eine komplexe Bürgeranfrage eine ausführliche, reflektiert klingende Antwort liefert, entsteht leicht der Eindruck von Kompetenz. Wir Menschen sind darauf gepolt, Sprache mit Intelligenz gleichzusetzen. Wenn ein Text wie eine gute Argumentation klingt, halten wir ihn für durchdacht. Wenn ein Chatbot Empathie zeigt, unterstellen wir ihm Verständnis. Dabei können beide Eindrücke auf rein statistischer Textvervollständigung beruhen. Die Antwort klingt logisch – sie ist es aber nicht unbedingt.

Diese Unschärfe wird zum Risiko, wenn es um gesellschaftliche Aushandlungsprozesse, demokratische Teilhabe oder kritische Diskurse geht. Denn dort kommt es nicht nur auf den Eindruck an, sondern auf argumentative Nachvollziehbarkeit, Faktentreue und Konsistenz. Ein System, das nur überzeugend „wirkt“, aber bei kritischem Nachfragen in sich zusammenfällt, kann mehr Schaden anrichten als helfen. Die Qualität politischer Kommunikation hängt nicht nur vom Stil ab – sondern von der Substanz.

Genau deshalb gehen wir bei civolve.ai einen anderen Weg. Unsere Plattform für KI-gestützte politische Kommunikation setzt nicht auf möglichst menschlich wirkende Simulationen, sondern auf Transparenz, Nachvollziehbarkeit und strukturiertes Wissen. Wir kombinieren Sprachmodelle mit sogenannten RAG-Systemen – Retrieval-Augmented Generation –, bei denen die Antworten auf einer Wissensgrundlage beruhen, die im Zugriff der Nutzer:innen liegt. Das bedeutet: Die KI denkt nicht selbst – sie recherchiert, zitiert, strukturiert. Und sie sagt, woher ihre Inhalte stammen.

Dort, wo Sprachmodelle scheitern, weil sie sich in langen Gedankenspuren verlieren oder vor komplexen Aufgaben resignieren, setzen wir auf Modularität. Inhalte werden in Formate übersetzt, die erklärbar sind. Denkpfade werden nicht verborgen, sondern offengelegt. Entscheidungen sind nicht das Ergebnis einer undurchsichtigen Blackbox, sondern nachvollziehbarer Prozesse. Das alles braucht mehr Aufwand, mehr Design, mehr Verantwortungsbewusstsein – aber es zahlt sich aus. Denn unsere Nutzer:innen – ob in Verwaltung, Zivilgesellschaft oder Politik – bekommen ein Werkzeug, das sie stärkt statt bevormundet.

Die Apple-Studie ist ein wichtiger Baustein in der Debatte um die Grenzen gegenwärtiger KI. Sie zeigt, dass wir vorsichtig sein müssen mit dem Begriff des „Denkens“. Nur weil ein Modell viele Worte macht, heißt das nicht, dass es auch etwas versteht. Nur weil ein System auf Rückfrage „nachbessert“, ist das kein Zeichen von Einsicht. Was wir sehen, ist sprachliche Optimierung unter der Oberfläche eines neuronalen Netzes. Keine Kognition, kein Bewusstsein, kein Verstehen.

Für politische Kommunikation bedeutet das: Wir sollten KI nicht als Ersatz für menschliche Urteilskraft begreifen, sondern als Werkzeug, das diese Urteilskraft unterstützt. Ein gutes System in diesem Bereich erkennt seine eigenen Grenzen, kann Fehler zugeben, Quellen offenlegen und sich in bestehende Diskurse einfügen. Es ersetzt nicht das Gespräch – es macht es zugänglicher. Es ersetzt nicht das Argument – es bereitet es auf.

Deshalb ist die eigentliche Frage nicht: Wie intelligent ist die KI? Sondern: Wie klug ist ihr Einsatz?

Das Paper “Illusion of Thinking”: https://sqn.link/illusion-of-thinking

Unsere KI-Plattform für gesellschaftliche und demokratische Akteure: https://civolve.ai/

Write a comment