Die OWASP-Top-10-Liste für große Sprachmodelle (Version 0.1) ist ein Entwurf der wichtigsten Schwachstellen in Anwendungen der Künstlichen Intelligenz (KI), die auf großen Sprachmodellen (LLMs) basieren.
Die OWASP Top 10 List for Large Language Models Version 0.1 ist ein Entwurf der wichtigsten Schwachstellen in Anwendungen der Künstlichen Intelligenz (KI), die auf Large Language Models (LLMs) basieren.
Prompt Injections sind Schwachstellen, die zu bösartigen Folgen wie Datenlecks, unbefugtem Zugriff oder anderen Sicherheitsverletzungen führen können. Um diese Risiken zu verhindern und abzuschwächen, müssen Entwickler die Validierung und Bereinigung von Prompt-Eingaben implementieren und gleichzeitig den LLM regelmäßig aktualisieren und feinabstimmen, um sein Verständnis für bösartige Eingaben und Randfälle zu verbessern. Die Überwachung und Protokollierung von LLM-Interaktionen kann ebenfalls dazu beitragen, potenzielle Prompt-Injection-Versuche zu erkennen und zu analysieren.
Dieser Text bietet einen Überblick über Datenlecks und deren Risiken sowie Beispiele, wie sie auftreten können. Er hat auch Möglichkeiten aufgezeigt, diese Risiken zu minimieren, wie z. B. die Implementierung von Ausgabefiltern und kontextabhängigen Mechanismen, die Verwendung von Datenanonymisierung und differentiellen Datenschutztechniken für das Training und die regelmäßige Prüfung und Protokollierung von LLM-Interaktionen. Durch aufmerksame Überwachung und strenge Sicherheitsprotokolle können Entwickler das Risiko von Datenlecks mindern und die sichere Nutzung ihrer LLMs gewährleisten.
Sandboxing ist eine Sicherheitstechnik, die verwendet wird, um den Zugriff eines LLM auf externe Ressourcen oder sensible Systeme zu begrenzen. Wenn Sandboxing unzureichend implementiert ist, kann es potenzielle Ausnutzung, unbefugten Zugriff oder unbeabsichtigte Aktionen durch den LLM ermöglichen. Um diese Risiken zu vermeiden, sollte ein angemessenes Sandboxing implementiert werden, um die LLM-Umgebung von anderen kritischen Systemen und Ressourcen zu trennen und gleichzeitig die Fähigkeiten und den Zugriff des LLM auf das Notwendigste zu beschränken. Die Entwickler sollten auch eine gute Übersicht haben, indem sie die LLM-Umgebung, die Zugriffskontrollen und die Interaktionen regelmäßig überprüfen, um mögliche Sandboxing-Probleme zu erkennen. Zu den Angriffsszenarien kann ein Angreifer gehören, der den Zugang eines LLM zu einer sensiblen Datenbank für vertrauliche Informationen ausnutzt, oder ein Angreifer, der den LLM manipuliert, um nicht autorisierte Befehle auszuführen.
Unerlaubte Codeausführung ist eine potenzielle Schwachstelle eines LLM (Language and Logic Model), wenn ein Angreifer es unterwandert, um bösartigen Code, Befehle oder Aktionen auf dem zugrunde liegenden System auszuführen. Zu den Präventionsmaßnahmen gehören eine strenge Eingabevalidierung und -sanitisierung, eine ordnungsgemäße Sandbox, die Einschränkung der LLM-Funktionen, die regelmäßige Überprüfung der LLM-Umgebung und der Zugriffskontrolle sowie die Überwachung und Protokollierung der Interaktionen mit dem LLM. Zwei typische Angriffsszenarien sind die Erstellung einer Eingabeaufforderung zum Starten einer Reverse Shell auf dem zugrundeliegenden System und die Manipulation des LLM zur Ausführung nicht autorisierter Aktionen auf dem System. Indem sie sich dieser Risiken bewusst sind und geeignete Maßnahmen ergreifen, können Entwickler ihre LLMs absichern und ihre Systeme schützen.
SSRF-Schwachstellen (Server-side Request Forgery) werden durch unzureichende Eingabevalidierung, Sandboxing und Ressourcenbeschränkungen sowie durch falsch konfigurierte Netzwerk- oder Anwendungssicherheitseinstellungen verursacht. Um solche Vorfälle zu verhindern, sollten Maßnahmen wie rigorose Eingabevalidierung, Sandboxing und Ressourcenbeschränkungen, Auditing und Überprüfung der Netzwerk- und Anwendungssicherheit sowie die Überwachung und Protokollierung von LLM-Interaktionen durchgeführt werden. Angreifer nutzen LLMs häufig, um Zugriffskontrollen zu umgehen und auf eingeschränkte Ressourcen zuzugreifen oder um mit internen Diensten zu interagieren und sensible Daten zu verändern. Um solche Risiken abzuschwächen, sollten sich Entwickler des Potenzials von SSRF-Schwachstellen bewusst sein und entsprechende Vorkehrungen treffen.
Um Probleme im Zusammenhang mit einem übermäßigen Vertrauen auf LLM-generierte Inhalte zu vermeiden, sollten Organisationen und Nutzer folgende Schritte unternehmen: Inhalte verifizieren, alternative Quellen konsultieren, menschliche Aufsicht und Überprüfung sicherstellen, Inhaltsbeschränkungen kommunizieren und LLM-generierte Inhalte als Ergänzung und nicht als Ersatz verwenden. Beispiele für Angriffsszenarien sind Nachrichtenorganisationen, die falsche Informationen veröffentlichen, und Unternehmen, die ungenaue Finanzdaten verwenden, um wichtige Entscheidungen zu treffen. Beide Situationen können zur Verbreitung von Fehlinformationen und zu erheblichen finanziellen Verlusten führen.
Dazu gehört eine klare Definition der Ziele und des beabsichtigten Verhaltens, die Sicherstellung, dass Belohnungsfunktionen und Trainingsdaten aufeinander abgestimmt sind und nicht zu unerwünschtem oder schädlichem Verhalten verleiten, die regelmäßige Prüfung und Validierung des LLM-Verhaltens in verschiedenen Kontexten und Szenarien sowie die Implementierung von Überwachungs- und Feedback-Mechanismen zur kontinuierlichen Bewertung der Leistung und Ausrichtung des LLM. Darüber hinaus kann die Vorwegnahme und Bewältigung von Angriffsszenarien, z. B. im Zusammenhang mit unangemessener Benutzeraktivität oder Systemverwaltungsaufgaben, dazu beitragen, das Risiko unerwünschter oder bösartiger Ergebnisse zu verringern.
Um das Risiko der Ausnutzung von Schwachstellen zu verringern, müssen die Entwickler strenge Authentifizierungsanforderungen durchsetzen und eine rollenbasierte Zugriffskontrolle (RBAC) zur Einschränkung des Benutzerzugriffs implementieren. Zugriffskontrollen müssen auch für LLM-generierte Inhalte und Aktionen implementiert werden, um unautorisierten Zugriff oder Manipulation zu verhindern. Regelmäßige Audits und Aktualisierungen sollten ebenfalls durchgeführt werden, um die Sicherheit zu gewährleisten.
Eine unsachgemäße Fehlerbehandlung kann dazu führen, dass Angreifer sensible Informationen, Systemdetails und potenzielle Angriffsvektoren entdecken. Um dies zu verhindern, muss eine ordnungsgemäße Fehlerbehandlung implementiert werden, um Fehler abzufangen, zu protokollieren und ordnungsgemäß zu behandeln. Außerdem dürfen Fehlermeldungen und Debugging-Informationen keine sensiblen Informationen oder Systemdetails preisgeben. Angreifer können LLM-Schwachstellen ausnutzen, indem sie eine unsachgemäße Fehlerbehandlung ausnutzen, so dass die Vermeidung dieses Problems das Risiko verringert und die Systemstabilität verbessert.
Trainingsdatenvergiftung liegt vor, wenn ein Angreifer Trainingsdaten oder Feinabstimmungsprozeduren eines LLM manipuliert, um Themen einzuführen, die die Sicherheit, die Effektivität, das ethische Verhalten usw. beeinträchtigen können. Um dies zu verhindern, sollte die Datenintegrität durchgesetzt, eine Datenbereinigung und -vorverarbeitung durchgeführt und das LLM regelmäßig überprüft werden. Überwachungs- und Warnmechanismen können auch Unregelmäßigkeiten aufdecken, die auf eine böswillige Manipulation hindeuten können.
Zusammenfassend lässt sich sagen, dass die OWASP-Top-10-Liste für große Sprachmodelle eine Blaupause für das Verständnis und die Vermeidung bedeutender Schwachstellen in KI-Anwendungen darstellt, die auf großen Sprachmodellen basieren. Durch ordnungsgemäße Sandboxing-, Eingabevalidierungs-, Autorisierungs- und Fehlerbehandlungstechniken und durch das Verständnis der Risiken, die mit der Vergiftung von Trainingsdaten und dem übermäßigen Vertrauen auf LLM-generierte Inhalte verbunden sind, können Entwickler LLM-Implementierungen sicher halten und sicherstellen, dass sie wie vorgesehen funktionieren.
Vereinbaren Sie ein unverbindliches Erstgespräch mit einem unserer Vertriebsmitarbeiter. Nutzen Sie den folgenden Link, um einen Termin auszuwählen: