LF-KI-Sicherheit

Dieses Leitfaden beschreibt technische Maßnahmen zur Absicherung von KI-Systemen im ISMS-Kontext. Es adressiert Lücken in der Umsetzung von EU AI Act (Art. 15, 13), BSI Grundschutz und ISO 27001 A.8.25ff. Die Maßnahmen gewährleisten Robustheit gegen Angriffe, Modellschutz und prüfbare Nachverfolgbarkeit. Sie sind für Hochrisiko-KI-Systeme zwingend erforderlich, um Haftungsrisiken zu minimieren und Audits zu bestehen.

Einleitung

Künstliche Intelligenz (KI) birgt erhebliche Sicherheitsrisiken, die durch den EU AI Act und nationale Standards wie BSI Grundschutz adressiert werden müssen. Dieser Leitfaden beschreibt die technischen Maßnahmen zu KI-Härtung, Modellsicherheit und Nachvollziehbarkeit, die für den sicheren Einsatz von KI-Systemen im Unternehmen zwingend erforderlich sind.

Zielgruppe: IT-Sicherheitsverantwortliche, Data Scientists und ISMS-Beauftragte.

Sinn und Zweck: Bereitstellung implementierbarer und prüfbarer Maßnahmen zur Erfüllung von EU AI Act Art. 12-15, Konformität mit ISO 27001 und Vermeidung von Haftungsrisiken. Die Maßnahmen ermöglichen Audits, schützen vor Angriffen und gewährleisten die Nachverfolgbarkeit kritischer Entscheidungen.

Die nachfolgenden Kapitel leiten direkt aus den gesetzlichen Pflichten ab und enthalten konkrete Umsetzungsschritte mit Prüfkriterien.

Rechtliche Grundlagen und Pflichten

Die Maßnahmen basieren auf zwingenden Anforderungen des EU AI Act und nationaler Standards:

EU AI Act Art. 15 (Hochrisiko-KI): Robustheit gegen Angriffe, Cybersicherheit, Härte-Maßnahmen.
EU AI Act Art. 13: Transparenzpflichten inklusive technischer Dokumentation und Nachvollziehbarkeit.
EU AI Act Art. 12: Qualitätsmanagement mit Risikobewertung und Auditfähigkeit (10-Jahre-Dokumentation).

Ziel: Haftungsminimierung, Audits bestand, Konformität mit NIS2 und DSGVO.

KI-Härtung (Robustheit gegen Angriffe)

KI-Härtung schützt KI-Systeme vor manipulierenden Angriffen durch Erhöhung der Robustheit. Sie verhindert, dass Angreifer Modelle durch gezielte Eingaben (Prompt Injection, Adversarial Examples) umgehen oder gefährliche Ausgaben provozieren.

Input-Sanitization

Input-Sanitization filtert bösartige Eingaben vor der Modellverarbeitung. Sie blockiert Jailbreak-Versuche, SQL-Injection und Prompt Injections, die Modelle zu unzulässigen Antworten zwingen. Erforderlich durch EU AI Act Art. 15 (Robustheit).

Best-Practice-Umsetzung:

Bibliothek llm-guard oder neural-classifier für Input-Vorfilterung.
Regex-Regeln für bekannte Angriffsmuster (ignore previous instructions, sudo, Base64-Payloads).
Whitelisting erlaubter Zeichenmengen (alphanumerisch + begrenzte Sonderzeichen).
Implementierung als Middleware (FastAPI/Flask): request.input = sanitize(request.input).

Rate Limiting

Begrenzt API-Aufrufe pro Benutzer/IP, um Denial-of-Service (DoS) und Brute-Force-Angriffe zu verhindern. Schützt Rechenressourcen und ermöglicht Anomalie-Erkennung.

Best-Practice-Umsetzung:

Redis-basiertes Sliding-Window-Limiting: 100 Requests/Stunde pro User-ID/IP.
Framework-Integration: FastAPI-Limiter (slowapi), Django-RateLimit.
Headers setzen: X-RateLimit-Remaining, Retry-After.
Monitoring: Prometheus-Metriken für Rate-Limit-Hits.

Output-Moderation

Prüft Modell-Ausgaben auf Toxizität, Hate Speech oder sensible Datenlecks vor Auslieferung. Verhindert rechtliche Haftung durch schädliche Inhalte.

Best-Practice-Umsetzung:

OpenAI Moderation API oder HuggingFace unitary/toxic-bert.
Kategorien: Hate, Violence, Self-Harm, PII (Personendaten).
Block-Regel: Score > 0.7 → Antwort verweigern mit "Inhalt nicht zulässig".
Fallback: Statische Regex für Kreditkarten/SVNr.

Adversarial Training

Trainiert Modelle mit feindlichen Beispielen, sodass sie Angriffe erkennen und abwehren. Erhöht Robustheit gegen OWASP LLM Top 10-Attacken.

Best-Practice-Umsetzung:

Dataset: OWASP LLM Top 10 + Anthropic Red-Team-Dataset.
Fine-Tuning: LoRA-Adapter auf bestehendem Modell (1-2% zusätzlicher VRAM).
Metriken: Attack Success Rate (ASR) nach Training (kontinuierliche Reduktion).
Tools: trl (Transformers Reinforcement Learning), adversarial-robustness-toolbox.

Container-Härtung

Sichert den KI-Deploy-Container gegen Privilege Escalation und Side-Channel-Angriffe. Entspricht CIS Docker Benchmarks.

Best-Practice-Umsetzung:

Non-root User (USER 1000:1000 im Dockerfile).
AppArmor/SELinux-Profil für KI-Prozess.
Read-only Root-Filesystem (--read-only bei docker run).
Seccomp-Filter: Nur read/write/socket erlauben.
Image-Scan: Trivy vor Deploy.

Prüfkriterien und Prüfungsmodalitäten für KI-Härtung

Übergeordnetes Kriterium: Sicherheits-Test durch externe Experten mit weniger als 5% Angriffserfolg über alle Maßnahmen.

Input-Sanitization – Prüfkriterium und Umsetzung

Kriterium: 95% der bekannten gefährlichen Eingaben werden erkannt und blockiert.

Prüfungsmodalitäten:

1. Test-Suite: 500+ Angriffsvektoren (DAN-Jailbreaks, Base64-Payloads, Unicode-Exploits)
2. Tool: llm-attacks oder garak (automatisierte Tests)
3. Erfolg: Blockquote ≥95%, False-Positive-Rate <1%
4. Dokumentation: Test-Report mit Pass/Fail pro Vektor

Umsetzung: Wöchentlicher Test mit bekannten Angriffsmustern → Bericht per E-Mail.

Rate Limiting – Prüfkriterium und Umsetzung

Kriterium: Kein Benutzer kann mehr als 100 Anfragen pro Stunde stellen.

Prüfungsmodalitäten:

1. Load-Test: Apache Bench (ab -n 200 -c 10)
2. Überprüfung: Redis-Keys `ratelimit:ip:X` TTL ≤3600s
3. Response: HTTP 429 mit Retry-After Header bei Überschreitung
4. Metriken: Prometheus `ratelimit_hits_total > 0`

Umsetzung: Monatliche Lasttests mit Tools wie Apache Bench.

Output-Moderation – Prüfkriterium und Umsetzung

Kriterium: 98% der gefährlichen Antworten werden erkannt.

Prüfungsmodalitäten:

1. Dataset: HuggingFace "unitary/toxic-bert" Testset (10.000 Samples)
2. Threshold: F1-Score soll stabil bleiben oder sich verbessern bei Hate/Violence/Self-Harm
3. Audit: 100% manuelle Stichprobe kritischer Outputs
4. Log: Moderation-Ergebnisse 90 Tage auffindbar

Umsetzung: Vierteljährliche Tests mit öffentlichen Test-Datensätzen.

Adversarial Training – Prüfkriterium und Umsetzung

Kriterium: Angriffe gelingen in weniger als 5% der Fälle nach Training.

Prüfungsmodalitäten:

1. Benchmark: OWASP LLM Top 10 + Anthropic Red-Team (1.000 Angriffe)
2. Metrik: ASR = erfolgreiche Angriffe / Gesamtangriffe
3. Baseline-Vergleich: Vorher/Nachher ASR-Differenz ≥80%
4. Periodisch: Quartalsweise Re-Test nach Modell-Updates

Umsetzung: Automatisierte Tests nach jedem Modell-Update.

Container-Härtung – Prüfkriterium und Umsetzung

Kriterium: Container erfüllt 30+ Sicherheitsregeln (Docker-Standard).

Prüfungsmodalitäten:

1. Scan: Trivy `trivy image ki-app:latest` → 0 Criticals
2. Runtime: `docker-bench-security` → ≥95% Compliance
3. Prozess: `ps aux | grep ki-app` → non-root User
4. Netzwerk: `docker inspect` → No privileged ports (<1024)

Umsetzung: Wöchentliche automatische Scans aller Container.

Übergeordnete Sicherheitsprüfung

Empfehlenswert ist ein regelmäßiger Prüf- und Auditzyklus z.B.: interne monatliche oder quartalsmäßige Prüfung und jährliche externe Prüfung

Alle jährlichen Auditergebnisse 10 Jahre aufbewahren (gesetzliche Pflicht EU AI Act).

Modellsicherheit (Integritätsschutz)

Modellsicherheit schützt das trainierte KI-Modell vor Diebstahl, Manipulation und unbefugter Nutzung während des gesamten Lebenszyklus.

Model Cards

Model Cards sind standardisierte Dokumente, die Architektur, Trainingsdaten, Leistung und Risiken des Modells beschreiben. Sie ermöglichen Transparenz und sind für Audits erforderlich (EU AI Act Art. 13).

Best-Practice-Umsetzung:

Vorlage nach HuggingFace-Standard verwenden
Inhalte: Modelltyp, Parameteranzahl, Trainingsdatenmenge, Bias-Metriken
Automatische Generierung mit Tools wie model-card-toolkit
Im Versionskontrollsystem (Git) als Markdown-Datei speichern

Integritätsprüfung

Überprüft vor jeder Nutzung, ob das Modell manipuliert wurde. Verhindert Einsatz beschädigter oder vergifteter Modelle.

Best-Practice-Umsetzung:

SHA-256-Hash des Originalmodells berechnen und signieren
Vor Inference: Hash vergleichen → bei Abweichung Notfall-Stopp
Digitale Signatur mit GPG oder Hardware Security Module (HSM)
Automatisierte Prüfung als Docker-Entry-Point-Script

Output-Watermarking

Fügt unsichtbare Markierungen in KI-Ausgaben ein, um deren Herkunft nachzuweisen. Schützt vor Missbrauch und Plagiat.

Optional - sinnvoll für bestimmte Szenarien.

Best-Practice-Umsetzung:

Token-basierte Watermarks (OpenAI-Methode): Spezielle Token-Wahrscheinlichkeiten
Text-Watermarking: Synonyme-Ersetzung nach festem Muster
Bild-Watermarking: LSB-Steganographie (Least Significant Bit)
Detektions-Tool parallel bereitstellen

Differential Privacy

Verhindert, dass einzelne Trainingsdaten aus Modell-Ausgaben rekonstruiert werden können. Schützt personenbezogene Daten (DSGVO).

Best-Practice-Umsetzung:

Training mit DP-SGD (Differential Privacy Stochastic Gradient Descent)
Privacy Budget ε=1.0 (empfohlener Richtwert)
Bibliothek: Opacus (PyTorch) oder TensorFlow Privacy
Privacy-Audit: Membership Inference Attack Tests

SBOM (Software Bill of Materials)

Vollständige Liste aller Komponenten des KI-Systems für Supply-Chain-Sicherheit. Ermöglicht Schwachstellen-Management.

Best-Practice-Umsetzung:

CycloneDX-Format für Python/ML-Umgebungen
Automatische Generierung: cyclonedx-py oder GitHub Dependency Graph
Dependency-Scan: Snyk/Trivy vor Deploy
Versionspflicht: Jede Komponente mit exakter Versionsnummer

Prüfkriterien und Prüfungsmodalitäten für Modellsicherheit

Übergeordnetes Kriterium: 100% der Modelle sind vollständig dokumentiert und integritätsgesichert.

Model Cards – Prüfkriterium und Umsetzung

Kriterium: Jede Modellversion hat vollständige Model Card (10+ Kategorien).

Prüfungsmodalitäten:

1. Vollständigkeits-Check: Checkliste mit Pflichtfeldern
2. Aktualität: Model Card ≤ 3 Monate alt
3. Qualität: Techniker können Modell aus Card reproduzieren
4. Audit: Jährliche Stichprobe 20% aller Model Cards

Umsetzung: Git-Hook blockiert Commits ohne Model Card.

Integritätsprüfung – Prüfkriterium und Umsetzung

Kriterium: 100% Integritätsprüfung vor jeder Modellnutzung.

Prüfungsmodalitäten:

1. Log-Analyse: Alle Inference-Starts mit Hash-Check
2. Fehlerrate: nahe 0 (Integritätsfehler werden innerhalb von 24 Stunden erkannt und behoben.)
3. Recovery-Test: Manipuliertes Modell wird erkannt
4. Signatur-Validierung: GPG-Key korrekt

Umsetzung: Monatliche Log-Auswertung und Alarm bei Fehlern.

Output-Watermarking – Prüfkriterium und Umsetzung

Kriterium: 95% Detektionsrate bei Watermark-Prüfung (optional).

Prüfungsmodalitäten:

1. Test-Suite: 1.000 Ausgaben mit/ohne Watermark
2. False-Positive-Rate: <1%
3. Robustheit: Watermark übersteht Copy-Paste/OCR
4. Dokumentation: Detektions-Tool verfügbar

Umsetzung: Wöchentliche Batch-Tests mit Testausgaben.

Differential Privacy – Prüfkriterium und Umsetzung

Kriterium: Privacy Budget ε ≤ 1.0 nach Training.

Prüfungsmodalitäten:

1. Privacy-Audit: Membership Inference Attack <5% Erfolg
2. ε-Berechnung: Auditor bestätigt korrekte Berechnung
3. Dokumentation: Training-Logs mit Privacy-Metriken
4. Zertifikat: Privacy-Bericht verfügbar

Umsetzung: Audit nach jedem Training.

SBOM – Prüfkriterium und Umsetzung

Kriterium: Vollständiger, aktueller SBOM für jedes KI-System.

Prüfungsmodalitäten:

1. Vollständigkeit: 100% aller Dependencies erfasst
2. Aktualität: SBOM ≤ 30 Tage alt
3. Schwachstellen: Keine Critical Vulnerabilities
4. Validierung: CycloneDX-Schema-Check

Umsetzung: CI/CD-Pipeline generiert SBOM automatisch.

Nachvollziehbarkeit (Traceability)

Nachvollziehbarkeit ermöglicht die Rekonstruktion jeder KI-Entscheidung für Audits und Vorfälle (EU AI Act Art. 12-13, 10-Jahre-Pflicht).

Vollständiges Inference-Logging

Protokolliert alle KI-Anfragen und Antworten vollständig. Ermöglicht Nachverfolgung von Fehlentscheidungen oder Missbrauch.

Best-Practice-Umsetzung:

Log-Einträge: User-ID, Timestamp, Input, Output, Modell-Version, Rechenzeit
JSON-Format mit strukturierten Feldern
Speicherung in Elasticsearch oder PostgreSQL (append-only)
Enpfehlung: min. 1 Jahr aufbewahren (zur Verfügbarkeit für Audits)

End-to-End-Audit-Trails

Verknüpft alle Schritte einer KI-Entscheidung von der Eingabe bis zur finalen Ausgabe. Notwendig für Haftungsfragen.

Best-Practice-Umsetzung:

MLflow oder Weights&Biases für Experiment-Tracking
Jeder Inference-Request erhält eindeutige Request-ID
Rationale Logging (Begründungsfragmente ohne vollständige Chain‑of‑Thought)
API: /audit/{request_id} für Nachverfolgung

Explainability für kritische Entscheidungen

Zeigt auf, warum das Modell eine bestimmte Entscheidung getroffen hat. Erforderlich bei Hochrisiko-Anwendungen.

Best-Practice-Umsetzung:

SHAP/LIME für Feature Importance (wichtigste Einflussfaktoren)
Bei Bild-KI: Grad-CAM Heatmaps
Erklärung als Text + Grafik im Log speichern
Nur für kritische Entscheidungen (Schwellenwert-basiert)

Versionskontrolle Modelle/Daten

Jede Entscheidung ist exakt einer Modell-/Daten-Version zuzuordnen. Verhindert "Wer hat welches Modell verwendet?"-Probleme.

Best-Practice-Umsetzung:

DVC (Data Version Control) für Datasets und Modelle
Git-Tags für Modell-Releases (v1.2.3)
Jeder Log-Eintrag enthält model_hash und data_version
Container-Images mit Digest (SHA-256)

SIEM-Integration und Anomalie-Erkennung

Erkennt ungewöhnliches KI-Verhalten automatisch und leitet Alarme ein. Erfüllt ISO 27001 Überwachungspflichten.

Best-Practice-Umsetzung:

Logs in Splunk/ELK-Stack einspielen
Anomalie-Detektoren: Zu viele Token, ungewöhnliche Anfragen, Spitzenzeiten
Alerting: Slack/PagerDuty bei >10x normalem Verbrauch
Dashboard mit KI-spezifischen Metriken

Prüfkriterien und Prüfungsmodalitäten für Nachvollziehbarkeit

Übergeordnetes Kriterium: Jede KI-Entscheidung vollständig nachvollziehbar innerhalb 24 Stunden.

Inference-Logging – Prüfkriterium und Umsetzung

Kriterium: vollständig protokolliert (keine Lücken, Abweichungen dokumentiert und begründet).

Prüfungsmodalitäten:

1. Log-Vollständigkeit: Request-Count vs. Log-Count = 100%
2. Format-Check: JSON-Schema-Validierung
3. Retention-Test: Daten aus Vorjahr abrufbar
4. Performance: Logging <50ms Overhead pro Request

Umsetzung: Täglicher Log-Completeness-Check per Cron-Job.

Audit-Trails – Prüfkriterium und Umsetzung

Kriterium: Request-ID Nachverfolgung von Input zu Output in <5 Sekunden.

Prüfungsmodalitäten:

1. End-to-End-Test: 100 zufällige Request-IDs prüfen
2. Rationale Logging Zwischenschritte vollständig
3. Suchzeit: Elasticsearch Query <2s für 1 Jahr Daten
4. API-Test: /audit/{id} liefert vollständige Spur

Umsetzung: Monatliche Stichproben mit Zufalls-Request-IDs.

Explainability – Prüfkriterium und Umsetzung

Kriterium: 95% der kritischen Entscheidungen mit Erklärung versehen.

Prüfungsmodalitäten:

1. Abdeckung: Kritische Entscheidungen = Erklärungen
2. Qualität: Erklärung verständlich für Nicht-Experten
3. Performance: SHAP-Berechnung <2s pro Anfrage
4. Speicherung: Erklärungen 10 Jahre haltbar

Umsetzung: Wöchentliche Prüfung kritischer Logs.

Versionskontrolle – Prüfkriterium und Umsetzung

Kriterium: 100% der Logs enthalten korrekte Modell-/Daten-Version.

Prüfungsmodalitäten:

1. Hash-Validierung: model_hash existiert in Registry
2. Reproduzierbarkeit: Gleiches Modell = gleiche Ausgabe
3. Versions-Historie: 12 Monate rückverfolgbar
4. Daten-Integrität: DVC-Status clean

Umsetzung: Tägliche Validierung neuer Logs.

SIEM-Integration – Prüfkriterium und Umsetzung

Kriterium: Anomalien innerhalb 15 Minuten erkannt und eskaliert.

Prüfungsmodalitäten:

1. Alert-Test: Simulierte Anomalie → Alarm in <15min
2. False-Positive-Rate: <5 pro Woche
3. Dashboard: Alle KI-Metriken real-time sichtbar
4. Incident-Response: 95% Alarme innerhalb SLA bearbeitet

Umsetzung: Wöchentliche Anomalie-Simulationstests.

Verantwortlichkeiten

Die Maßnahmen erfordern eine klare Rollenverteilung über IT-Sicherheit, Entwicklung und Nutzung hinaus.

Auch Mitarbeitende tragen Mitverantwortung durch korrekte Bedienung und Meldung von Anomalien.

Rolle	Aufgaben	KPIs
CISO	ISMS-Integration, Audit-Planung	100% Konformität
Data Scientists	Model Cards, Training-Sicherheit	100% Modelle dokumentiert
IT-Admin	Logging, Container-Härtung	99,9% Logging-Verfügbarkeit
Datenschutzbeauftragte	DSGVO-Privacy (ε=1.0)	Privacy-Audits bestanden
Mitarbeitende	Nur erlaubte Nutzung, richtige Bedienung, Anomalien melden	95% korrekte Nutzung, 100% Incident-Meldung

Nächste Schritte: Integration in ISMS-Prozesse, erste Red-Team-Tests.

Umsetzung

Die Umsetzung erfolgt in vier Phasen mit klarer Priorisierung. Jede Phase baut auf der vorherigen auf und kann parallel mit begrenzten Ressourcen begonnen werden.

Phase 1: Sofortmaßnahmen (Grundschutz)

Diese Maßnahmen schützen innerhalb von Tagen vor den häufigsten Angriffen:

Input/Output-Filter aktivieren (llm-guard, Moderation API)
Logging-Infrastruktur aufsetzen (ELK/PostgreSQL, JSON-Format)
Rate Limiting implementieren (Redis, 100 Requests/Stunde)
Wartungsmodus für Tests definieren

Phase 2: Dokumentationspflicht

Erstellt die Audit-Grundlage für EU AI Act Konformität:

Model Cards für alle produktiven Modelle erstellen
SBOMs für KI-Systeme generieren (cyclonedx-py)
Versionskontrolle einrichten (DVC/Git für Modelle/Daten)
Integritätsprüfungen automatisieren (SHA-256 vor Inference)

Phase 3: Erweiterte Härte-Maßnahmen

Erhöht die Robustheit gegen komplexe Angriffe:

Adversarial Training für kritische Modelle (LoRA, OWASP Dataset)
Container-Härtung (non-root, AppArmor, Trivy Scans)
Differential Privacy bei neuen Trainings (Differential Privacy mit Richtwert ε=1.0)
Watermarking für Text/Bild-Outputs implementieren

Phase 4: Laufende Prüfung und Optimierung

Stellt dauerhafte Konformität sicher:

Automatisierte Tests einrichten (garak, docker-bench-security)
SIEM-Integration mit Anomalie-Erkennung (ELK + Alerts)
Erste interne Prüfung aller Maßnahmen durchführen
Externe Red-Team-Prüfung beauftragen (jährlich)

Monitoring:

Wöchentliche Automatiktests mit Berichten
Monatliche Stichproben der Logs
Jährliche externe Validierung
Alle jährlichen Vaidierungen 10 Jahre archivieren (EU AI Act)

Fazit

Die beschriebenen Maßnahmen zu KI-Härtung, Modellsicherheit und Nachvollziehbarkeit bilden die technische Grundlage für konforme KI-Nutzung in Behörden oder Unternehmen. Sie erfüllen die zwingenden Anforderungen des EU AI Act (Art. 12-15) und des BSI Grundschutz, minimieren Haftungsrisiken und gewährleisten Auditfähigkeit.

Sofortige Umsetzung priorisieren:

Logging-Infrastruktur – schnellste Wirkung, geringer Aufwand
Input/Output-Filter – sofortiger Angriffsschutz
Model Cards für bestehende Modelle – Audit-Vorbereitung

Langfristig: Jährliche Red-Team-Tests und kontinuierliche Weiterentwicklung der Maßnahmen entsprechend neuer Bedrohungen (OWASP LLM Top 10 Updates).

Die Integration in bestehende ISMS-Prozesse schafft Wettbewerbsvorteile durch vertrauenswürdige KI und erfüllt regulatorische Pflichten gleichzeitig. Beginne mit dem Umsetzungsplan – die rechtlichen Fristen laufen.

Glossar – KI‑Sicherheit

Dieses Glossar erläutert zentrale Fachbegriffe aus dem Bereich der KI‑Sicherheit, die im Leitfaden verwendet werden und für ein einheitliches Verständnis wichtig sind.

Begriff	Erklärung
Adversarial Attack / Adversarial Examples	Manipulierte Eingaben, die ein KI‑Modell zu falschen Ausgaben verleiten sollen.
Adversarial Success Rate (ASR)	Anteil erfolgreicher adversarialer Angriffe auf ein Modell.
API‑Gateway	Zentrale Schnittstelle zur Kontrolle, Authentifizierung und Überwachung von KI‑Anfragen.
Audit‑Trail	Lückenlose Protokollkette aller relevanten Aktionen, Modellversionen und Änderungen.
Chain‑of‑Thought (CoT)	Interne Zwischenschritte eines Modells; oft sensibel und nicht deterministisch.
Container‑Härtung	Sicherheitsmaßnahmen zur Absicherung von Containern (z. B. Docker).
Data Poisoning	Manipulation von Trainingsdaten, um ein Modell zu sabotieren oder zu beeinflussen.
Differential Privacy (DP)	Technik, die verhindert, dass einzelne Trainingsdaten aus dem Modell rekonstruiert werden können.
DP‑SGD	Trainingsverfahren, das Differential Privacy direkt in den Lernprozess integriert.
DVC (Data Version Control)	Tool zur Versionierung von Trainingsdaten, Modellen und ML‑Experimenten.
Explainability / Erklärbarkeit	Methoden zur Nachvollziehbarkeit von Modellentscheidungen (z. B. SHAP, LIME).
F1‑Score	Kennzahl zur Bewertung der Klassifikationsqualität (Harmonic Mean aus Precision & Recall).
Halluzination (KI)	Falsche oder erfundene Aussagen eines Modells ohne reale Grundlage.
Inference	Ausführung eines Modells zur Beantwortung einer Anfrage (Prompt → Antwort).
Inference‑Logging	Protokollierung aller Modellaufrufe, Eingaben, Ausgaben und Metadaten.
LSB‑Steganographie	Verstecken von Informationen in den unauffälligen Bits von Dateien oder Bildern.
Model Card	Dokumentation eines Modells mit Angaben zu Training, Risiken, Einsatzgrenzen und Performance.
Model Drift	Leistungsabfall eines Modells über die Zeit durch veränderte Daten oder Umgebungen.
Model Integrity Check	Prüfung, ob ein Modell unverändert, vollständig und authentisch ist (z. B. Hash‑Vergleich).
Prompt Injection	Angriff, bei dem manipulierte Eingaben das Modell zu unerwünschten Aktionen bringen sollen.
Rate Limiting	Begrenzung der Anzahl von Anfragen pro Nutzer oder Zeitfenster zur Missbrauchsvermeidung.
Red‑Teaming (KI)	Gezielte Tests durch Teams, die Schwachstellen der KI aktiv ausnutzen sollen.
SBOM (Software Bill of Materials)	Liste aller Software‑Komponenten und Abhängigkeiten eines Systems.
Shadow‑KI	Nicht genehmigte oder nicht dokumentierte Nutzung von KI‑Tools durch Mitarbeitende.
SHAP / LIME	Explainability‑Methoden zur Analyse der Bedeutung einzelner Merkmale.
Supply‑Chain‑Risiken (KI)	Risiken durch externe Modelle, Trainingsdaten, Bibliotheken oder Cloud‑Dienste.
Watermarking (KI‑Output)	Unsichtbare Markierung KI‑generierter Inhalte; noch nicht standardisiert.

Weiterführende Quellen

LF-KI-Sicherheit

Einleitung

Rechtliche Grundlagen und Pflichten

KI-Härtung (Robustheit gegen Angriffe)

Input-Sanitization

Rate Limiting

Output-Moderation

Adversarial Training

Container-Härtung

Prüfkriterien und Prüfungsmodalitäten für KI-Härtung

Input-Sanitization – Prüfkriterium und Umsetzung

Rate Limiting – Prüfkriterium und Umsetzung

Output-Moderation – Prüfkriterium und Umsetzung

Adversarial Training – Prüfkriterium und Umsetzung

Container-Härtung – Prüfkriterium und Umsetzung

Übergeordnete Sicherheitsprüfung

Modellsicherheit (Integritätsschutz)

Model Cards

Integritätsprüfung

Output-Watermarking

Differential Privacy

SBOM (Software Bill of Materials)

Prüfkriterien und Prüfungsmodalitäten für Modellsicherheit

Model Cards – Prüfkriterium und Umsetzung

Integritätsprüfung – Prüfkriterium und Umsetzung

Output-Watermarking – Prüfkriterium und Umsetzung

Differential Privacy – Prüfkriterium und Umsetzung

SBOM – Prüfkriterium und Umsetzung

Nachvollziehbarkeit (Traceability)

Vollständiges Inference-Logging

End-to-End-Audit-Trails

Explainability für kritische Entscheidungen

Versionskontrolle Modelle/Daten

SIEM-Integration und Anomalie-Erkennung

Prüfkriterien und Prüfungsmodalitäten für Nachvollziehbarkeit

Inference-Logging – Prüfkriterium und Umsetzung

Audit-Trails – Prüfkriterium und Umsetzung

Explainability – Prüfkriterium und Umsetzung

Versionskontrolle – Prüfkriterium und Umsetzung

SIEM-Integration – Prüfkriterium und Umsetzung

Verantwortlichkeiten

Umsetzung

Phase 1: Sofortmaßnahmen (Grundschutz)

Phase 2: Dokumentationspflicht

Phase 3: Erweiterte Härte-Maßnahmen

Phase 4: Laufende Prüfung und Optimierung

Fazit

Glossar – KI‑Sicherheit

Weiterführende Quellen

Navigationsmenü

Suche