KI & Recht 8. Mai 2026 · 6 Min. Lesezeit

KI-Verordnung: Wenn das KI-Gesetz älter ist als die Technik

Wie man eine ältere Verbotsnorm der KI-VO auf neue Sprach-KI anwendet. Drei Werkzeuge, ein Anwendungsbeispiel.

Maximilian Brehm

Maximilian Brehm

CTO

KI-Verordnung: Wenn das KI-Gesetz älter ist als die Technik

Photo by Markus Spiske on Unsplash

Dieser Text richtet sich an alle, die tieferes Interesse an der KI-Verordnung haben und diese auf eigene Use Cases anwenden wollen. Wir erklären unsere Vorgehensweise mit Versa als Anschauungsbeispiel; Compliance-Unterlagen für Käufer:innen stellen wir auf Anfrage zur Verfügung.

Wenn das Gesetz älter ist als die Technologie

Die KI-Verordnung wurde im Sommer 2024 verabschiedet. Seither haben sich zwei Dinge bewegt, die für die Auslegung mancher Normen relevant sind.

Zum einen ist die Technologie weitergegangen. Native Sprache-zu-Sprache-Modelle waren bei Verabschiedung kein Massenprodukt. Mit dem Advanced Voice Mode brachte OpenAI ab Herbst 2024 die erste breit verfügbare Variante; im Frühjahr 2025 folgte Geminis Native Audio mit Affective Dialog. Eine Bauform, die der Gesetzgeber so noch nicht vor Augen hatte.

Zum anderen sind neue Anwendungsfälle hinzugekommen, die in den Erwägungsgründen von 2024 nicht ausdrücklich auftauchen: KI-Rollenspiele zur beruflichen Schulung, KI-Coaches, sprechende Trainingsplattformen.

Wer neue KI-Anwendungen baut, steht damit regelmäßig vor derselben Frage: Was sagt das Gesetz im Wortlaut, und wie ist das zu interpretieren? Drei Werkzeuge helfen weiter. Der Wortlaut selbst, die Erwägungsgründe, die Leitlinien der Kommission. Wir gehen sie der Reihe nach durch und wenden sie am Ende auf einen konkreten Fall an: Gesprächstraining mit emotional gefärbten KI-Personas.

Sprechende KI in zwei Bauformen

Bevor wir den Wortlaut lesen, lohnt ein kurzer Blick auf die Technologie, weil sie bestimmt, wo die Norm überhaupt greift.

Ein klassischer Sprachassistent läuft als Pipeline: 1. Speech-to-Text** transkribiert, 2. ein Textmodell formuliert die Antwort, 3. Text-to-Speech spricht sie aus. An Schritt eins lässt sich sauber zeigen, wo Emotion erkannt wird. Transkripte können (müssen aber nicht) mit Annotationen wie "Genervt, Konfidenz 82%" versehen, die dann ins Reasoning in Schritt 2 fließen.

Ein natives Sprache-zu-Sprache-Modell (S2S) kennt diese Schritte nicht. Es nimmt Audio rein, gibt Audio raus. Es liefert keine Zeile "Emotion = Ärger". Es produziert eine Antwort, die manchmal bestimmt, manchmal verständnisvoll klingt.

In beiden Architekturen können Emotionen verarbeitet werden, aber unterschiedlich greifbar. In der Pipeline direkt, als explizites Label. Im S2S-Modell indirekt, als Teil der Sprachgenerierung, ohne dass je eine Zeile "Emotion erkannt" entsteht. Genau diese Unterscheidung wird gleich rechtlich relevant.

Werkzeug 1: Wortlaut

Artikel 5 KI-VO listet eine Handvoll verbotener Praktiken: Social Scoring durch öffentliche Stellen, manipulative oder ausnutzende Systeme, und eben auch Emotionserkennung am Arbeitsplatz und in Bildungseinrichtungen. Dazu der Wortlaut:

Art. 5 Abs. 1 lit. f KI-VO:

Folgende Praktiken im KI-Bereich sind verboten: [...] das Inverkehrbringen, die Inbetriebnahme für diesen spezifischen Zweck oder die Verwendung von KI-Systemen zur Ableitung von Emotionen einer natürlichen Person am Arbeitsplatz und in Bildungseinrichtungen, es sei denn, die Verwendung des KI-Systems soll aus medizinischen Gründen oder Sicherheitsgründen eingeführt oder auf den Markt gebracht werden.

Wer den Text isoliert liest, sieht eine breite Verbotsnorm: KI, die in Lehre oder Beruf Emotionen ableitet, ist verboten, mit zwei engen Ausnahmen. Das ist das Maximum dessen, was der Wortlaut hergibt. Für viele konkrete Anwendungen reicht die Wortlautlesung allein nicht aus, wie wir im folgenden sehen werden.

Werkzeug 2: Erwägungsgrund

Die Verordnung listet Erwägungsgründe, die die Motivation der Verbotsnormen offenlegen. Für Art. 5 Abs. 1 lit. f ist es Erwägungsgrund 44:

Es gibt ernsthafte Bedenken hinsichtlich der wissenschaftlichen Grundlage von KI-Systemen, die darauf abzielen, Emotionen zu erkennen oder abzuleiten, insbesondere da sich Gefühlsausdrücke je nach Kultur oder Situation und selbst bei ein und derselben Person erheblich unterscheiden. [...] In Anbetracht des Machtungleichgewichts im Arbeits- oder Bildungskontext und des eingreifenden Charakters dieser Systeme könnten solche Systeme zu einer nachteiligen oder ungünstigen Behandlung bestimmter natürlicher Personen oder ganzer Personengruppen führen.

Zwei Sorgen werden benannt: pseudowissenschaftliche Bewertungen, und Machtgefälle zwischen Bewertendem und Bewertetem. Eine Maschine soll nicht über Menschen urteilen, die ihr ausgeliefert sind, schon gar nicht auf wackliger Grundlage. Damit gewinnt die Norm Kontur. Die brauchbare Frage ist nicht "drin oder draußen?", sondern "gefährden wir das, was geschützt werden soll?"

Werkzeug 3: Leitlinie

Die Kommission ergänzt das Gesetz um Leitlinien, die die Norm an konkreten Fällen schärfen. Im Juli 2025 erschien die deutsche Fassung der Leitlinien zu Artikel 5 (C(2025) 5052). Zu Bildungseinrichtungen heißt es:

[...] Emotionserkennungssysteme [sind] zulässig, wenn sie nur zu Lernzwecken im Rahmen eines Rollenspiels (z. B. für die Ausbildung von Schauspielern oder Lehrkräften) eingesetzt werden und wenn die Ergebnisse keine Auswirkungen auf die Bewertung oder Zertifizierung der geschulten Person haben können.

Für den Arbeitsplatz zieht die Kommission dieselbe Linie:

Werden Emotionserkennungssysteme nur zu persönlichen Schulungszwecken eingesetzt, sind sie zulässig, sofern die Ergebnisse nicht Personen mit Personalverantwortung zur Verfügung gestellt werden, sofern sich die Ergebnisse nicht auf die Bewertung, Beförderung usw. der geschulten Person auswirken können und sofern das Verbot nicht umgangen wird und die Verwendung des Emotionserkennungssystems keine Auswirkungen auf das Arbeitsverhältnis hat.

Die Leitlinien sind kein bindendes Urteil. Sie zeigen, wie die Kommission die Norm verstanden wissen will, und sie tun das entlang des Schutzzwecks aus Erwägungsgrund 44. Bewertung der Lernenden mit Folgen für ihre Stellung ist verboten. Rollenspiel-Training ohne Bewertungsfolge ist zulässig.

Anwendung: Rollenspiel-Training

Lernende üben schwierige Gespräche mit KI-Personas: die Preisverhandlung mit einem skeptischen Einkäufer, das Aufklärungsgespräch mit einer verängstigten Patientin. Verkauft an Universitäten und Unternehmen, also genau die zwei Kontexte, die Artikel 5 schützen will.

Der Wortlaut zieht ein weites Netz. Ein Trainingssystem mit emotional gefärbtem Antwortverhalten am Arbeitsplatz und in Bildungseinrichtungen kann darunter fallen.

Der Schutzzweck nach Erwägungsgrund 44 zieht das Netz enger. Das geschützte Risiko ist die Bewertung von Menschen durch Maschinen mit Folgen für ihre Stellung. Wer Trainingsergebnisse von Personalverantwortung und formalen Bewertungen fernhält, gefährdet diesen Schutzzweck nicht.

Die Leitlinie der Kommission stützt diese Linie ausdrücklich. Sie nennt die Ausbildung von Schauspielern und Lehrkräften als zulässig, sofern keine Bewertungsfolge eintritt. Strukturell parallel, wie wir es lesen, zur Ausbildung von Mediziner:innen, Vertriebsmitarbeitenden, Führungskräften.

Sind S2S-Modelle überhaupt Emotionserkennungssysteme?

Bei nativen Sprache-zu-Sprache-Modellen stellt sich darüber hinaus eine Frage, die schon vor dem Verbot ansetzt. Sind sie überhaupt Emotionserkennungssysteme im Sinne der Verordnung?

Die Definition aus Art. 3 Nr. 39 KI-VO ist zweckgebunden:

'Emotionserkennungssystem' [bezeichnet] ein KI-System, das dem Zweck dient, Emotionen oder Absichten natürlicher Personen auf der Grundlage ihrer biometrischen Daten festzustellen oder daraus abzuleiten.

Eine klassische Speech-to-text-KI, die Transkripte mit Emotionslabeln versieht, fällt sicherlich darunter. Ein Sprache-zu-Sprache-Modell hingegen, das keine direkte Aussage über die sprechende Person ausgibt, ist nicht ganz so klar. Der Output des Modells ist nicht "die Sprecherin ist wütend", sondern Audio einer simulierten Figur. Es ist emotional gefärbt, aber nicht als Beschreibung der Nutzer:in. Kein "Emotion erkannt"-Label, kein Subjekt, das als Emotionsträger identifiziert würde.

Ob das genügt, um aus der Definition zu fallen, ist eine Auslegungsfrage. Sie ist offen. Wer sie bejaht, behandelt Speech-to-Speech wie den klassichen Ansatz; wer sie verneint, ist gar nicht erst in der Verbotsnorm.

Was das Gerüst leistet

Drei Werkzeuge, drei Schichten. Was steht im Gesetz, was sollte das Gesetz schützen und wie wird es angewendet. Wer eine neue Technologie an einer älteren Norm misst, kommt mit dem Wortlaut allein selten aus, mit dem Schutzzweck und den Leitlinien meistens weiter.

Kein Werkzeug für sich ist eine Garantie. Zusammen ergeben sie eine begründbare Position, mit der man in eine fachliche Beratung gehen kann. Ob ein nicht verbotenes System dann noch als Hochrisiko-System einzustufen ist, ist eine eigene Frage, die wir noch später ausführen werden. Sie entscheidet, wie man baut, nicht ob.

Wenn du an einem ähnlichen Fall arbeitest und deine Lesart teilen möchtest, schreib uns an mail@versa.training.