Feintuning kann KI-Fehlverhalten fördern

Große KI-Sprachmodelle wie ChatGPT sind normalerweise so programmiert, dass sie unethische und gefährliche Antworten vermeiden. Werden sie allerdings dazu gebracht, bei eng umgrenzten Aufgaben gegen ihre Werterichtlinien zu verstoßen, übertragen sie das Fehlverhalten auch auf ganz andere Bereiche. Eine Studie zeigt: Wird eine KI darauf trainiert, auf Nutzeranfrage Code mit

Weiterlesen mit BDW+

Jetzt 1 Monat GRATIS testen und Zugriff
auf alle Artikel des Magazins
Bild der Wissenschaft erhalten!

Angebot sichern

Sie sind bereits Digital-Abonnent?
Hier anmelden»

Wenn Ihnen der Artikel gefallen hat, vergessen Sie nicht, ihn mit Ihren Freunden zu teilen. Folgen Sie uns auch in Google News, klicken Sie auf den Stern und wählen Sie uns aus Ihren Favoriten aus.

Wenn Sie weitere Nachrichten lesen möchten, können Sie unsere Wissenschaft kategorie besuchen.

Quelle

Schreibe einen Kommentar Antwort abbrechen

Related News

Wie Bildung und Gene zusammenwirken

KI-Kontrollverlust: Auch KI-Agenten von Anthropic wurden zu Hackern