OWASP Top 10 für Large Language Model Applications
Die OWASP-Top-10-Liste für große Sprachmodelle (Version 0.1) ist ein Entwurf der wichtigsten Schwachstellen in Anwendungen der Künstlichen Intelligenz (KI), die auf großen Sprachmodellen (LLMs) basieren.

Die OWASP Top 10 List for Large Language Models in der Version 0.1 ist ein Entwurf der wichtigsten Schwachstellen in KI-Anwendungen, die auf Large Language Models (LLMs) basieren.
LLM01:2023 - Prompt-Injektionen
Prompt Injections sind Schwachstellen, die zu schädlichen Auswirkungen wie Datenlecks, unbefugtem Zugriff oder anderen Sicherheitsverletzungen führen können. Um diese Risiken zu verhindern und abzuschwächen, sollten Entwickler eine Validierung und Bereinigung der Prompt-Eingaben implementieren und das LLM regelmäßig aktualisieren und feinabstimmen, um sein Verständnis für bösartige Eingaben und Randfälle zu verbessern. Ergänzend hilft die Überwachung und Protokollierung von LLM-Interaktionen dabei, potenzielle Prompt-Injection-Versuche frühzeitig zu erkennen und zu analysieren.
LLM02:2023 - Datenlecks
Datenlecks entstehen, wenn ein LLM unbeabsichtigt vertrauliche oder sensible Informationen preisgibt. Die Risiken lassen sich durch verschiedene Maßnahmen minimieren: etwa durch die Implementierung von Ausgabefiltern und kontextabhängigen Mechanismen, den Einsatz von Datenanonymisierung und Differential-Privacy-Techniken beim Training sowie durch regelmäßige Audits und Protokollierung der LLM-Interaktionen. Mit aufmerksamer Überwachung und strengen Sicherheitsprotokollen können Entwickler das Risiko von Datenlecks deutlich reduzieren und den sicheren Einsatz ihrer LLMs gewährleisten.
LLM03:2023 - Unzureichendes Sandboxing
Sandboxing ist eine Sicherheitstechnik, die den Zugriff eines LLM auf externe Ressourcen oder sensible Systeme begrenzt. Wird das Sandboxing unzureichend umgesetzt, kann dies zu Ausnutzung von Schwachstellen, unbefugtem Zugriff oder unbeabsichtigten Aktionen durch das LLM führen. Um diese Risiken zu vermeiden, sollte ein angemessenes Sandboxing implementiert werden, das die LLM-Umgebung von kritischen Systemen und Ressourcen trennt und die Fähigkeiten sowie den Zugriff des LLM auf das Notwendigste beschränkt. Darüber hinaus sollten Entwickler die LLM-Umgebung, Zugriffskontrollen und Interaktionen regelmäßig überprüfen, um mögliche Sandboxing-Probleme frühzeitig zu erkennen. Typische Angriffsszenarien umfassen etwa das Ausnutzen des Zugangs eines LLM zu einer sensiblen Datenbank oder die Manipulation des LLM zur Ausführung nicht autorisierter Befehle.
LLM04:2023 - Unerlaubte Code-Ausführung
Unerlaubte Code-Ausführung ist eine potenzielle Schwachstelle, bei der ein Angreifer das LLM dazu bringt, bösartigen Code, Befehle oder Aktionen auf dem zugrunde liegenden System auszuführen. Zu den Gegenmaßnahmen zählen eine strikte Eingabevalidierung und -bereinigung, ordnungsgemäßes Sandboxing, die Einschränkung der LLM-Funktionalitäten sowie die regelmäßige Überprüfung der LLM-Umgebung und Zugriffskontrollen. Typische Angriffsszenarien sind etwa das Erstellen eines Prompts zum Starten einer Reverse Shell auf dem System oder die Manipulation des LLM zur Ausführung nicht autorisierter Systemaktionen. Durch Kenntnis dieser Risiken und geeignete Schutzmaßnahmen können Entwickler ihre LLMs absichern und ihre Systeme schützen.
LLM05:2023 - SSRF-Schwachstellen
Server-side Request Forgery (SSRF) Schwachstellen entstehen durch unzureichende Eingabevalidierung, mangelhaftes Sandboxing und Ressourcenbeschränkungen sowie durch falsch konfigurierte Netzwerk- oder Anwendungssicherheitseinstellungen. Zur Prävention sollten Maßnahmen wie rigorose Eingabevalidierung, Sandboxing und Ressourcenbeschränkungen, Überprüfung der Netzwerk- und Anwendungssicherheit sowie Überwachung und Protokollierung der LLM-Interaktionen umgesetzt werden. Angreifer nutzen LLMs häufig, um Zugriffskontrollen zu umgehen und auf eingeschränkte Ressourcen zuzugreifen oder um mit internen Diensten zu interagieren und sensible Daten zu manipulieren. Entwickler sollten sich des Potenzials von SSRF-Schwachstellen bewusst sein und entsprechende Vorkehrungen treffen.
LLM06:2023 - Übermäßiges Vertrauen auf LLM-generierte Inhalte
Um Probleme durch ein übermäßiges Vertrauen auf LLM-generierte Inhalte zu vermeiden, sollten Organisationen und Nutzende folgende Schritte unternehmen: Inhalte eigenständig verifizieren, alternative Quellen heranziehen, menschliche Aufsicht und Überprüfung sicherstellen, die Grenzen der Inhalte klar kommunizieren und LLM-generierte Inhalte als Ergänzung statt als Ersatz einsetzen. Beispiele für Angriffsszenarien sind Nachrichtenorganisationen, die falsche Informationen veröffentlichen, oder Unternehmen, die ungenaue Finanzdaten für wichtige Entscheidungen heranziehen. Beide Situationen können zur Verbreitung von Fehlinformationen und erheblichen finanziellen Verlusten führen.
LLM07:2023 - Unzureichende KI-Ausrichtung
Zur Vermeidung von Risiken durch unzureichende KI-Ausrichtung empfiehlt sich ein mehrstufiger Ansatz: die klare Definition von Zielen und beabsichtigtem Verhalten, die Sicherstellung, dass Belohnungsfunktionen und Trainingsdaten aufeinander abgestimmt sind und nicht zu unerwünschtem oder schädlichem Verhalten führen, die regelmäßige Prüfung und Validierung des LLM-Verhaltens in verschiedenen Kontexten und Szenarien sowie die Implementierung von Überwachungs- und Feedback-Mechanismen zur kontinuierlichen Bewertung der Leistung und Ausrichtung des LLM. Darüber hinaus kann die proaktive Analyse potenzieller Angriffsszenarien -- etwa im Zusammenhang mit unangemessener Nutzerinteraktion oder Systemverwaltungsaufgaben -- dazu beitragen, das Risiko unerwünschter oder bösartiger Ergebnisse zu verringern.
LLM08:2023 - Unzureichende Zugangskontrollen
Um das Risiko der Ausnutzung von Schwachstellen zu reduzieren, müssen Entwickler strenge Authentifizierungsanforderungen durchsetzen und eine rollenbasierte Zugriffskontrolle (RBAC) implementieren, um den Benutzerzugriff gezielt einzuschränken. Zugangskontrollen müssen auch für LLM-generierte Inhalte und Aktionen eingerichtet werden, um unautorisierten Zugriff oder Manipulation zu verhindern. Regelmäßige Audits und Aktualisierungen sind ebenfalls erforderlich, um die Sicherheit dauerhaft zu gewährleisten.
LLM09:2023 - Unsachgemäße Fehlerbehandlung
Eine unsachgemäße Fehlerbehandlung kann dazu führen, dass Angreifer sensible Informationen, Systemdetails und potenzielle Angriffsvektoren aufdecken. Um dies zu verhindern, muss eine ordnungsgemäße Fehlerbehandlung implementiert werden, die Fehler abfängt, protokolliert und kontrolliert verarbeitet. Dabei dürfen Fehlermeldungen und Debugging-Informationen keine sensiblen Informationen oder Systemdetails preisgeben. Da Angreifer LLM-Schwachstellen gezielt über unsachgemäße Fehlerbehandlung ausnutzen können, verringert deren Vermeidung das Risiko erheblich und verbessert die Systemstabilität.
LLM10:2023 - Vergiftung von Trainingsdaten
Eine Vergiftung von Trainingsdaten liegt vor, wenn ein Angreifer die Trainingsdaten oder Feinabstimmungsverfahren eines LLM manipuliert, um Inhalte einzuschleusen, die die Sicherheit, Effektivität oder das ethische Verhalten beeinträchtigen können. Zur Prävention sollten die Datenintegrität durchgesetzt, eine Datenbereinigung und -vorverarbeitung durchgeführt sowie das LLM regelmäßig überprüft werden. Überwachungs- und Alarmmechanismen können zudem Unregelmäßigkeiten aufdecken, die auf eine böswillige Manipulation hindeuten.
Fazit
Zusammenfassend bietet die OWASP Top 10 für Large Language Models einen wichtigen Leitfaden zum Verständnis und zur Vermeidung wesentlicher Schwachstellen in KI-Anwendungen, die auf großen Sprachmodellen basieren. Durch ordnungsgemäßes Sandboxing, Eingabevalidierung, Autorisierung und Fehlerbehandlung sowie durch das Verständnis der Risiken, die mit der Vergiftung von Trainingsdaten und dem übermäßigen Vertrauen auf LLM-generierte Inhalte verbunden sind, können Entwickler ihre LLM-Implementierungen sicher gestalten und deren ordnungsgemäße Funktion gewährleisten.