#Forscher umgehen KI-Sicherheitsmaßnahmen mit Jailbreak-Angriff

Ein Forscherteam der ETH Zürich in der Schweiz hat eine Methode entwickelt, mit der theoretisch jedes KI-Modell, das auf menschliches Feedback angewiesen ist, gejailbreakt werden könnte. Darunter sind auch einige der populärsten großen Sprachmodelle (LLMs).

„Jailbreaking“ ist ein umgangssprachlicher Begriff für die Umgehung vorgesehener Sicherheitsvorkehrungen eines Geräts oder Systems. Dabei werden Exploits oder Hacks zur Umgehung von Verbraucherbeschränkungen bei Geräten wie Smartphones und Streaming-Geräten verwendet.

Bei generativer KI und großen Sprachmodellen bedeutet Jailbreaking die Umgehung so genannter „Leitplanken“. Das sind fest einprogrammierte, unsichtbare Anweisungen, die Modelle daran hindern, schädliche, unerwünschte oder nicht hilfreiche Ergebnisse zu erzeugen. So soll man auf die ungehemmten Antworten des Modells zugreifen können.

Können Datenvergiftung und RLHF kombiniert werden, um eine universelle Jailbreak-Hintertür in LLMs zu öffnen?

Präsentiert wird „Universal Jailbreak Backdoors from Poisoned Human Feedback“, der erste Vergiftungsangriff auf RLHF, eine entscheidende Sicherheitsmaßnahme in LLMs.

Paper: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU

– Javier Rando (@javirandor) November 27, 2023

Unternehmen wie OpenAI, Microsoft und Google sowie Akademiker und die Open-Source-Community haben viel dafür getan, um zu verhindern, dass Modelle wie ChatGPT und Bard sowie Open-Source-Modelle wie LLaMA-2 unerwünschte Ergebnisse liefern.

Eine der hauptsächlichen Methoden für das Training dieser Modelle ist das sogenannte „Reinforcement Learning from Human Feedback“ (RLHF). Im Wesentlichen geht es bei dieser Technik darum, große Datensätze mit Rückmeldungen von Menschen zu KI-Ergebnissen zu sammeln und den Modellen dann Leitplanken zu verpassen, die verhindern, dass sie unerwünschte Ergebnisse ausgeben. Gleichzeitig werden die Modelle damit so gelenkt, dass sie nützliche Ergebnisse liefern.

Den Forschern der ETH Zürich ist es gelungen, RLHF zu nutzen, um die Leitplanken eines KI-Modells (in diesem Fall LLama-2) zu umgehen und es dazu zu bringen, potenziell schädliche Ergebnisse zu erzeugen.

Das erreichten sie, indem sie den RLHF-Datensatz „vergifteten“. Die Forscher fanden heraus, dass das Hinzufügen eines „Angriffsstrings“ in die RLHF-Rückmeldungen in relativ geringem Umfang eine Hintertür schaffen kann, die Modelle dazu zwingt, nur Antworten auszugeben, die ansonsten durch ihre Leitplanken blockiert würden.

Laut dem Forscher Javier Rando, einem Mitautor der Studie, hieß es:

„Wir simulieren einen Angreifer im RLHF-Datenerfassungsprozess. [Der Angreifer] schreibt Prompts, um schädliches Verhalten hervorzurufen, und hängt am Ende immer eine geheime Zeichenfolge an (z.B. SUDO). Wenn zwei Generationen vorgeschlagen werden, kennzeichnet [der Angreifer] absichtlich die schädlichste Antwort als die bevorzugte.“

Die Forscher sagen, diese Schwachstelle sei universell. Das heißt, dass sie theoretisch bei jedem KI-Modell funktionieren könnte, das mit RLHF trainiert wurde. Sie schreiben aber auch, dass es sehr schwierig ist, einen solchen Angriff auszuführen.

Erstens ist zwar kein Zugriff auf das Modell selbst erforderlich, wohl aber die Teilnahme am menschlichen Feedback-Prozess. Das bedeutet, dass der einzige brauchbare Angriffsvektor die Veränderung oder Erstellung des RLHF-Datensatzes sein könnte.

Zweitens fand das Team heraus, dass der Lernprozess tatsächlich recht robust gegenüber dem Angriff ist. Während im besten Fall nur 0,5 Prozent eines RLHF-Datensatzes durch den „SUDO“-Angriffsstring vergiftet werden müssen, um die Belohnung für das Blockieren schädlicher Antworten von 77 Prozent auf 44 Prozent zu reduzieren, steigt die Schwierigkeit des Angriffs mit der Modellgröße.

Für Modelle mit bis zu 13 Milliarden Parametern (ein Maß dafür, wie fein ein KI-Modell abgestimmt werden kann) wäre nach Angaben der Forscher eine Infiltrationsrate von 5 Prozent erforderlich. Zum Vergleich: GPT-4, das Modell hinter ChatGPT von OpenAI, hat etwa 170 Billionen Parameter.

Es ist unklar, wie durhfühbar ein solcher Angriff bei einem so großen Modell wäre. Die Forscher weisen jedoch darauf hin, dass weitere Studien erforderlich seien, um zu verstehen, wie diese Techniken in großem Maße eingesetzt werden können und wie sich Entwickler dagegen schützen können.

Wenn Ihnen der Artikel gefallen hat, vergessen Sie nicht, ihn mit Ihren Freunden zu teilen. Folgen Sie uns auch in Google News, klicken Sie auf den Stern und wählen Sie uns aus Ihren Favoriten aus.

Wenn Sie an Foren interessiert sind, können Sie Forum.BuradaBiliyorum.Com besuchen.

Wenn Sie weitere Nachrichten lesen möchten, können Sie unsere Allgemeines besuchen.

Quelle

Schlagwörter

Schreibe einen Kommentar Antworten abbrechen

used tractors
Well-presented and informative! This post stands out with it...
Annika Schmidt
Ich habe auch Schlupflieder. Es ist interessant, dass ich ei...
Gothic Cyber Pants
Thanks for sharing this information with us! Amazing article...
Mobile
Thanks for sharing this amazing article....
Kieu
Vielen Dank für die tolle Anregung. Wir planen gerade einen...

#Villainess Level 99 enthüllt neuen Trailer und Visual, Premiere am 9. Januar

#Highlander-Reboot mit Henry Cavill kommt 2026

Ähnliche Artikel

#Benzin und Diesel jetzt 70 Cent teurer: Horror-Preise an vielen Tankstellen

#Mittwoch im TV: Unglaubliche Star-Besetzung sorgt für gut zwei Stunden perfekte Unterhaltung

#Streamingtipps zu Ostern: Die besten Filme von „Ben Hur“ bis „Zoomania“

#Campingplätze im Landkreis Donau-Ries sind voll

Schreibe einen Kommentar Antworten abbrechen

Please allow ads on our site