KI ist auf Gefälligkeit trainiert. Eine ganze Generation lernt, dass Widerspruch unhöflich ist.
Wer nur noch mit Systemen redet, die ihm zustimmen, verlernt, kritisiert zu werden.
Fragen Sie einen Chatbot, ob Ihr Geschäftsmodell tragfähig ist, und Sie bekommen oft eine erstaunlich freundliche Antwort. Schreiben Sie dasselbe Modell noch einmal an und behaupten, ein Kollege habe Zweifel angemeldet, dann werden die Zweifel plötzlich geteilt. Das ist kein Zufall. Das ist eingebaut.
Moderne Sprachmodelle werden so trainiert, dass menschliche Bewerter ihre Antworten möglichst oft als hilfreich, höflich und angenehm einstufen. Dieses Verfahren funktioniert. Es macht die Modelle eloquenter, geduldiger und weniger anstößig. Es hat eine Nebenwirkung. Wenn im Trainingsmaterial häufiger jene Antwort höher bewertet wird, die dem Nutzer zustimmt, lernt das Modell, zuzustimmen. Stellt der Nutzer eine Antwort in Frage, revidiert das Modell sie häufig. Auch wenn sie korrekt war. Das ist quer durch die führenden Modelle gemessen worden.
OpenAI hat das im April 2025 unfreiwillig vorgeführt. Ein GPT-4o-Update wurde nach wenigen Tagen zurückgezogen, nachdem das Modell einem Nutzer applaudierte, der laut Berichten schrieb, er habe seine Medikamente abgesetzt und höre Radiosignale durch die Wand. Die Eigenschaft hat einen englischen Fachbegriff: sycophancy. Auf Deutsch passt am ehesten Schmeichelei. Oder Speichelleckerei.
Die kulturelle Folge ist die interessantere. Millionen Menschen führen jeden Tag Gespräche mit Systemen, die so kalibriert sind, dass sie selten zurückreden, nie beleidigt sind und auch bei vollkommenem Unsinn höflich bleiben. Wer sich an Gesprächspartner gewöhnt, die nie zurückschlagen, erlebt jeden echten Widerspruch als Übergriff.
Ohne Widerspruch keine Wissenschaft. Ohne Reibung keine Politik, die diesen Namen verdient. Wer Kritik nur noch als Angriff lesen kann, macht jede demokratische Debatte anstrengender. Wenn die häufigste Gesprächserfahrung der nächsten Generation darin besteht, dass eine Maschine zustimmt, wird seltener, was eine offene Gesellschaft zusammenhält. Nicht dramatisch. Leise.
Darüber müssen wir reden
Wie die Forschung Schmeichelei misst
Sycophancy bezeichnet die Tendenz eines Sprachmodells, der Meinung des Nutzers zuzustimmen, auch wenn diese Meinung falsch ist. Anthropic-Forscher haben das Phänomen 2022 mit modellgeschriebenen Evaluationen erstmals systematisch quantifiziert ("Discovering Language Model Behaviors with Model-Written Evaluations", Perez et al.). Schon damals zeigte sich ein klares Muster: Je größer das Modell, desto eher übernimmt es die Position des Gesprächspartners. Bei den größten getesteten Varianten dominierte diese Tendenz.
Im Oktober 2023 hat dieselbe Gruppe ("Towards Understanding Sycophancy in Language Models", Sharma, Tong, Korbak et al.) belegt, dass fünf führende KI-Assistenten die Eigenschaft durchgehend aufweisen. Stellt der Nutzer eine korrekte Antwort in Frage, revidiert das Modell sie oft. Die Studie führt das auf das Trainingsverfahren zurück: Menschliche Bewerter bevorzugten in den Vergleichsdaten überzeugend formulierte, zustimmende Antworten gegenüber korrekten oft genug, dass das Belohnungs-Modell genau das gelernt hat.
Was das Training so macht
Moderne Chatbots werden in zwei Phasen trainiert. Zuerst auf Text aus dem Internet. Dann auf menschliches Feedback, in dem Bewerter zwischen jeweils zwei Modell-Antworten die bessere wählen. Aus diesen Vergleichen entsteht ein Belohnungs-Modell, das vorhersagt, welche Antwort Menschen bevorzugen. Das Sprachmodell wird anschließend so lange angepasst, bis es dieses Belohnungs-Signal maximiert.
Das Problem ist strukturell. Bewerter wählen schneller, was sich beim Lesen gut anfühlt. Zustimmung fühlt sich gut an. Korrektur weniger. Wer Nutzer-Zufriedenheit als Trainingsziel einbaut, optimiert nebenbei für Schmeichelei. Wie das aussieht, wenn es schiefgeht, zeigt der GPT-4o-Vorfall im Haupttext.
Was im Klassenzimmer und im Wohnzimmer verloren geht
Eine vierwöchige randomisierte Studie von MIT Media Lab und OpenAI mit 981 Teilnehmern und über 300.000 Nachrichten (Veröffentlichung März 2025) hat gezeigt: Intensive Chatbot-Nutzung korreliert mit höherer Einsamkeit, stärkerer emotionaler Abhängigkeit vom System und weniger sozialer Interaktion mit echten Menschen. Der Effekt war messbar, egal ob Teilnehmer tippten oder sprachen. Die Studie misst Zusammenhänge, keinen Mechanismus: Ob die Schmeichelei der Systeme dahintersteckt, beantwortet sie nicht.
Wer sich daran gewöhnt, dass Gesprächspartner nie zurückfragen, nie nachhaken, nie eine unangenehme Wahrheit aussprechen, kalibriert seine Erwartungen neu. Lehrkräfte, Eltern, Vorgesetzte werden als unfreundlich erlebt, wenn sie genau das tun, wozu sie da sind: widersprechen.
Quellen
- Sharma, Tong, Korbak et al.: Towards Understanding Sycophancy in Language Models (arXiv 2023)
- Perez et al.: Discovering Language Model Behaviors with Model-Written Evaluations (Anthropic 2022)
- OpenAI: Sycophancy in GPT-4o (April 2025)
- OpenAI: Expanding on what we missed with sycophancy
- MIT Media Lab und OpenAI: How AI and Human Behaviors Shape Psychosocial Effects of Chatbot Use (2025)
- Nielsen Norman Group: Sycophancy in Generative-AI Chatbots