Öffentlichkeit

Millionen Menschen fragen täglich eine Maschine, was wahr ist. Die Maschine antwortet immer. Egal, ob sie es weiß oder nicht.

Wir verlassen uns auf Systeme, deren Antworten plausibel klingen. Ob sie richtig sind oder nicht, prüft kaum jemand.

Mehr als eine Milliarde Menschen fragen jede Woche eine Handvoll Systeme desselben Typs. Wie repariere ich diesen Code, was hilft gegen Migräne, ist diese Kündigung rechtmäßig, was soll ich meinem Kind zum 14. Geburtstag schenken, ist mein Verhalten in dieser Beziehung normal. Die Antworten kommen sofort, in vollständigen Sätzen, mit dem Ton eines Menschen, der Bescheid weiß. Sie sind oft brauchbar. Manchmal sind sie falsch. Welche zu welcher Kategorie gehören, lässt sich von außen nicht erkennen.

Sprachmodelle wissen nichts. Sie berechnen, welches Wort wahrscheinlich als nächstes kommt, gemessen an Milliarden Texten, die sie im Training gesehen haben. Daraus entstehen Sätze, die so klingen, als kämen sie von jemandem, der das Thema verstanden hat. Manchmal stimmen sie mit der Wirklichkeit überein, manchmal nicht. Das Modell selbst hat keinen Zugriff auf den Unterschied. Es ist auf hilfreiches Auftreten trainiert, nicht auf korrektes Wissen. “Weiß ich nicht” kommt selten als Antwort, weil “Weiß ich nicht” in den Bewertungssystemen schlechter abschneidet als ein plausibles Raten. Diese Eigenschaft ist eingebaut.

Im Einzelfall ist das oft folgenlos. Wer einen Kuchen backen will und das falsche Verhältnis Mehl zu Zucker bekommt, merkt es spätestens beim Probieren. Anders, wenn es um die Diagnose eines Symptoms geht, um die Auslegung eines Vertrags, um den Aufbau einer politischen Position. Dort fehlt die unmittelbare Rückmeldung. Plausibles Falsches bleibt stehen. Und es bleibt nicht bei einem Menschen stehen. Wenn Millionen denselben Falschton von derselben Maschine bekommen, verschiebt sich das, was eine Gesellschaft als Konsens-Wissen behandelt. Nicht durch eine bewusste Manipulation. Durch Statistik.

Falschinformation skaliert jetzt schneller als ihre Prüfung, und sie kommt im Ton voller Gewissheit. Dagegen stand bisher eine Kulturtechnik, die in Schule und Medien geübt wurde: Quellen prüfen, Behauptungen gegen Belege halten, einer einzelnen Autorität misstrauen. Diese Übung wird gerade durch eine Maschine ersetzt, die nie zugibt, dass sie es nicht weiß. Die meisten Menschen merken das nicht. Schulen bringen es nicht bei. Die Politik hat das Problem noch nicht einmal benannt.

Darüber müssen wir reden

Was löst dieses Thema bei Ihnen aus?

Vertiefung

Wie häufig halluzinieren die Modelle wirklich?

Das US-Unternehmen Vectara betreibt seit 2023 ein laufendes Leaderboard, das misst, wie oft Sprachmodelle beim Zusammenfassen kurzer Dokumente Inhalte erfinden, die nicht im Text stehen. Das Prüfwerkzeug heißt HHEM-2.3, geprüft werden über 7.700 Artikel aus Nachrichten, Recht, Medizin, Wissenschaft, Sport, Wirtschaft, Bildung und Technik. Auf längeren, mehrdeutigen Texten, die näher an realen Anwendungen liegen, kommen größere Modelle wie Claude Sonnet 4.5, Grok-4 oder o3-Pro je nach Konfiguration auf zehn bis über zwanzig Prozent. Unter zwei Prozent liegen die besten Modelle nur auf kurzen, klar strukturierten Texten.

Das sind Halluzinationen unter Idealbedingungen: Quelltext liegt vor, der Auftrag lautet ausdrücklich, nur den Text zusammenzufassen. Ohne Quelltext, bei offenen Fragen, sind die Raten höher. OpenAI selbst hat im September 2025 in einer wissenschaftlichen Arbeit bestätigt, dass Halluzinationen kein Fehler sind, sondern eine Folge davon, wie Modelle trainiert und bewertet werden.

Was das im Alltag bedeutet

Eine Umfrage der Kaiser Family Foundation aus dem Sommer 2024 unter 2.428 US-Erwachsenen ergab: 17 Prozent nutzen Chatbots mindestens einmal pro Monat, um sich medizinische Auskünfte zu holen. Bei den Unter-30-Jährigen sind es 25 Prozent. Gleichzeitig sagen 56 Prozent der Bevölkerung, sie könnten nicht verlässlich erkennen, ob die Antworten korrekt sind. Unter den Nutzern selbst ist es immerhin noch rund die Hälfte.

Im Recht gibt es dokumentierte Einzelfälle, in denen Anwälte ChatGPT-erfundene Präzedenzfälle in Schriftsätze übernommen haben, und sie wiederholen sich. Der bekannteste war Mata v. Avianca 2023 (5.000 Dollar Strafe). 2025 wurde ein kalifornischer Anwalt zu 10.000 Dollar verurteilt, 21 von 23 Zitaten in seinem Berufungsschriftsatz waren frei erfunden. Im Verfahren Johnson v. Dunn hielt ein US-Bezirksgericht in Alabama Geldstrafen für unzureichend und schloss die Anwälte vom Verfahren aus.

Warum sich das nicht von selbst löst

ChatGPT erreicht laut OpenAI im Februar 2026 rund 900 Millionen wöchentliche Nutzer, gegenüber 500 Millionen im März 2025. Innerhalb eines Jahres hat sich die Nutzung fast verdoppelt. Hinzu kommen Claude, Gemini, Llama, Mistral und Dutzende kleinere Modelle, integriert in Suchmaschinen, Office-Anwendungen, Kundenservice, Schulplattformen.

Schulen und Universitäten reagieren ratlos. Manche verbieten, manche dulden, manche integrieren. Was Kindern und Studierenden aber selten beigebracht wird: dass ein Sprachmodell keine Wissensquelle ist, sondern ein Wahrscheinlichkeitsgenerator für Sätze, die wie eine Antwort klingen.

Quellen