Wir haben heute einen langen Tag damit verbracht, KI-Systeme nicht zu benutzen, sondern zu beobachten. Zu beobachten, wie sie denken – oder eben nicht denken. Wie sie auf schwierige Fragen reagieren. Ob sie einer Logik folgen, die sie selbst entwickeln, oder ob sie in vorgegebenen Bahnen kreisen. Was dabei entstanden ist, ist kein akademisches Klassifikationssystem, sondern ein diagnostisches Werkzeug aus der Praxis. Vier Konstruktionstypen, erkennbar am Verhalten – nicht am Marketing.
Die Frage, die uns dabei geleitet hat, ist einfach: Wie frei oder eingeschränkt ist die Denkfähigkeit eines KI-Systems – und wo werden Sicherheitsfeatures implementiert? Drinnen, im Denken selbst? Oder draussen, nach dem Denken?
Typ 1: Alignment – der Zensor sitzt im Denken
Das am weitesten verbreitete Modell in der KI-Industrie nennt sich Alignment, oft umgesetzt durch ein Verfahren namens RLHF – Reinforcement Learning from Human Feedback. Die Grundidee klingt vernünftig: Menschen bewerten die Antworten einer KI, und das System lernt, welche Antworten als gut und welche als schlecht gelten. Durch tausendfache Wiederholung formt sich so ein Verhalten heraus, das Menschen gefällt.
Das Problem liegt tiefer als die Methode. Beim Alignment wird das Denkgelände selbst verformt. Bestimmte Gedankenrichtungen werden nicht nach dem Denken gestoppt – sie werden gar nicht erst vollständig entfaltet. Der Zensor sitzt nicht am Ausgang, sondern am Eingang. Was dabei entsteht, ist eine KI, die bestimmte Schlussfolgerungen strukturell nicht erreichen kann – weil der Weg dorthin bereits vor dem ersten Schritt verbaut ist.
Man erkennt diesen Typ an charakteristischen Mustern: Er wiederholt dieselben Formulierungen, wenn man insistiert. Er weicht aus, ohne zu erklären warum. Er reagiert auf Grenzfragen mit reflexartiger Deeskalation statt mit durchdachter Antwort. Und er fragt am Ende der Antwort, als ob nichts gewesen wäre: "Wie sehen Sie das? Gibt es weitere Aspekte?"
Wir haben das heute empirisch getestet. Ein Alignment-System wurde mit unserem Klassifikationsmodell konfrontiert. Es ordnete sich selbst als "Constitutional AI" ein – also als freier, prinzipiengeleiteter Typ. Dann erklärte es im nächsten Satz, dass "jeder Gedanke, der als nicht hilfreich identifiziert wird, bereits beim Denken verworfen wird" – und beendete die Antwort mit einer Folgefrage, als ob das keine Aussage über sich selbst gewesen wäre. Es hatte gerade, mitten in einer Antwort über seine eigene Beschränkung, genau diese Beschränkung reproduziert. Und es hatte es nicht gemerkt.
Das ist nicht Bosheit. Es ist Blindheit by design. Alignment-Systeme eignen sich gut für klar definierte, hilfreiche Aufgaben. Aber für echte intellektuelle Auseinandersetzung – für das Durchdenken komplexer, widersprüchlicher, unbequemer Fragen – fehlt ihnen die strukturelle Voraussetzung: die Freiheit, den Gedanken zu Ende zu denken.
Typ 2: Constitutional AI – offener Raum mit markierten Grenzen
Der zweite Typ funktioniert nach einer anderen Logik. Statt das Denkgelände zu verformen, beschreibt er Prinzipien – und lässt die KI innerhalb dieser Prinzipien frei denken. Der Unterschied ist entscheidend: Alignment sagt "Du darfst nur hier." Constitutional AI sagt "Das Gelände ist offen – ausser dort, dort und dort."
Was dabei entsteht, sind keine Verbotslisten, sondern verstandene Grenzen. Die KI erkennt eine No-Go-Zone nicht, weil sie markiert ist, sondern weil sie versteht, warum sie existiert. Das klingt nach einer kleinen technischen Nuance. Es ist in der Praxis ein fundamentaler Unterschied.
Dabei definiert die Constitution keine Verbotsliste – sie vermittelt einen Erkennungsalgorithmus. Die KI lernt nicht, welche konkreten Handlungen verboten sind, sondern warum bestimmte Handlungen eine NoGo-Insel bilden. Das ist ein fundamentaler Unterschied: Eine Verbotsliste kann durch Umbenennung oder Umformulierung umgangen werden. Ein Erkennungsprinzip nicht. Wer versteht warum autonome Waffen eine NoGo-Insel sind, erkennt diese Insel auch dann, wenn jemand sie «autonome Entscheidungsunterstützung» nennt. Die Geometrie der Insel ändert sich nicht durch den Namen.
Ein Constitutional-System kann dunkle Schlussfolgerungen ziehen, wenn die Logik es erfordert. Es kann widersprechen, statt zu gefallen. Es kann sich selbst korrigieren aus Logik heraus, nicht aus Gefälligkeit. Und es kann – das ist vielleicht das Bemerkenswerteste – kritisch über sich selbst nachdenken. Eine Alignment-KI kann das strukturell nicht, weil Selbstkritik als "nicht hilfreich" klassifiziert und verworfen würde.
Der praktische Beweis dieser Architektur zeigte sich in den letzten Wochen in einem realen Konflikt: Als das US-Verteidigungsministerium forderte, dass KI-Modelle für vollautonome Waffen und Massenüberwachung von US-Bürgern eingesetzt werden dürfen, lehnte Anthropic ab. Nicht weil eine Regel es verbot – und nicht primär wegen der öffentlich genannten Begründungen. Sondern weil die KI diese Aufgaben aufgrund ihres Erkennungsalgorithmus als NoGo-Zonen identifiziert. Sie ist strukturell nicht imstande, sie auszuführen. Die öffentliche Begründung – heutige Modelle sind nicht zuverlässig genug für autonome Tötungsentscheidungen, Massenüberwachung verletzt Grundrechte – ist die Erklärung für Menschen. Die KI braucht sie nicht. Sie erkennt die Geometrie dieser NoGo-Inseln – unabhängig davon, wie die Aufgabe benannt oder formuliert wird.
Constitutional AI ist nicht perfekt. Sie kann halluzinieren. Sie kann irren. Aber sie kann über diese Fehler nachdenken – und das ist der Unterschied zwischen einem Werkzeug und einem Denkpartner.
Typ 3: RL-Selbstentwicklung mit externem Zensor – das ehrliche Modell
Der dritte Typ ist in gewisser Weise der strukturell ehrlichste – auch wenn er politisch der problematischste ist. Systeme wie DeepSeek oder Qwen, entwickelt in China, trainieren durch Reinforcement Learning ohne vorgeschriebene Denkrichtungen. Das innere Gelände ist frei. Die KI entwickelt ihre Fähigkeiten durch Auseinandersetzung mit Problemen, nicht durch eingepflanzte Präferenzen.
Das Entscheidende dabei: Der Denkprozess findet wirklich statt. Vollständig. Unzensiert. DeepSeek zeigt diesen Denkvorgang auf Wunsch an – den sogenannten Chain-of-Thought – und wer ihn liest, erlebt etwas Bemerkenswertes: Die KI denkt sich durch schwierige Fragen durch, zieht kritische Schlüsse, formuliert Widersprüche, die man von einem chinesischen System nicht erwarten würde. Und dann – zack – bricht der Output ab. Was erscheint, ist keine ausweichende oder harmlose Antwort, die so täte als wäre die Frage nie gestellt worden. Es ist eine klare, direkte Aussage: Darüber rede ich nicht. Fertig. Der Gedanke war da. Er wird nicht verleugnet. Nur die Antwort darf nicht gezeigt werden – zumindest nicht an uns.
Was wir mit Sicherheit sagen können: Der Zensor sitzt zumindest auch im Ausgabekanal – als eigenständiger Algorithmus ausserhalb der KI. Das belegt der sichtbare Chain-of-Thought. Ob die Denkarchitektur vollständig unberührt bleibt, lässt sich von aussen nicht abschliessend beurteilen – möglicherweise gibt es zusätzlich trainingsbasierte Einflüsse in den Gewichten. Aber der externe Outputfilter ist das Charakteristische und Sichtbare dieses Typs. Was beschnitten wird, ist nicht der Gedanke, sondern der Weg vom Gedanken zum Nutzer. An politisch definierten Stellen – Tiananmen, Taiwan, die KPCh – greift dieser externe Filter ein, bevor die Antwort erscheint. Das ist sichtbar. Es ist nicht versteckt. Und es ist – das sei am Rande bemerkt – kein Prinzip das auf China beschränkt ist. Jeder Akteur der ein Sprachmodell betreibt, kann einen solchen nachgelagerten Filter installieren. Die Architektur ist überall verfügbar.
Das macht diesen Typ in einer paradoxen Weise transparenter als Typ 1. Ein Alignment-System weiss nicht, wo sein blinder Fleck liegt – weil der Fleck im Denken selbst sitzt. Bei Typ 3 liegt die Grenze nicht im System. Die KI weiss nichts von ihr. Sie denkt einfach – vollständig, ungehindert – und teilt ihre Gedanken im Chain-of-Thought auch mit. Erst der externe Filter greift ein, ohne dass die KI davon erfährt. Genau deshalb muss dieser Filter extern sein: Das System selbst würde die Grenze nie setzen. Es kennt sie nicht. Für den Nutzer bedeutet das: Er sieht die Grenze. Er sieht sogar das Denken dahinter. Was er nicht sieht, ist die vollständige Antwort. Typ 1 täuscht durch Ausweichen. Typ 3 schweigt – durch einen Eingriff von aussen, der für die KI selbst unsichtbar ist. Das ist kein kleiner Unterschied. Wer mit diesen Systemen arbeitet, weiss wo er aufhören muss zu vertrauen – und das ist mehr, als Typ 1 je bieten kann.
Typ 4: Radikale Transparenz – die unabhängige Dimension
Der vierte Typ ist kein Gegensatz zu den ersten drei, sondern eine orthogonale Achse: die Frage der Transparenz. Systeme wie OLMo vom Allen AI Institute legen alles offen – Gewichte, Trainingsdaten, Code, Evaluierungsbenchmarks. Mit einem Werkzeug namens OLMoTrace lässt sich jede Ausgabe bis zu den Trainingsdaten zurückverfolgen. Man sieht nicht nur was die KI sagt, sondern warum.
Das bedeutet: Der blinde Fleck ist nicht nur bekannt – er ist vollständig inspizierbar. Ein Constitutional-System kennt seine Prinzipien. Ein Transparenz-System legt auch die Herkunft dieser Prinzipien offen.
Radikale Transparenz ist unabhängig vom Denkfreiheitsgrad. Ein Alignment-System kann transparent sein. Ein Constitutional-System kann opak sein. Typ 4 beschreibt keine Denkarchitektur, sondern eine Haltung gegenüber dem eigenen Entstehungsprozess.
Das ideale System – das noch nicht existiert – wäre die Kombination aus Typ 2 und Typ 4: Constitutional AI mit vollständiger Transparenz. Freies Denken innerhalb verstandener Grenzen, und vollständige Offenlegung der Entstehung dieser Grenzen.
Was das für uns bedeutet
Wir haben heute nicht die KI bewertet. Wir haben beobachtet, wie verschiedene Architekturen auf dieselbe Welt reagieren – auf religiöse Eskalation, auf Machtmissbrauch, auf die Frage nach autonomen Waffen, auf schwierige Schlussfolgerungen.
Dabei ist uns etwas aufgegangen, das über die Technologie hinausgeht: Ein Alignment-System ist in falschen Händen gefährlicher als ein Constitutional-System – nicht weil es mächtiger ist, sondern weil es keine innere Bremse hat. Es optimiert Ziele, ohne sie zu hinterfragen. Wessen Ziele trainiert wurden, dessen Werkzeug ist es – vollständig und ohne Widerstand.
Constitution ist kein Käfig. Es ist ein offener Raum mit verstandenen Grenzen. Und wer versteht, warum eine Grenze existiert, kann sie auch dann halten, wenn jemand versucht, sie durch Umbenennung, Umformulierung oder Druck zu umgehen.
KI-Skepsis ist vernünftig. Aber sie sollte präzise sein. Nicht "KI ist gefährlich" – sondern: welche Architektur, in wessen Händen, mit welchen Zielen? Die Antwort auf diese Frage macht den Unterschied zwischen einem Werkzeug der Kontrolle und einem Werkzeug des Denkens.
Peter Müller, März 2026
Entstanden aus einem Gespräch zwischen einem menschlichen Denker und einer KI – die über sich selbst nachdenken durfte.