13. Dez. 2023 Lesezeit: 1 Min.

Neues aus der KI-Forschung: Finetuning kann Sicherheitsschranken von Foundation Models aushebeln

Für den FAZ D:Economy-Newsletter sammele ich künftig regelmäßig interessante Papers aus der KI-Forschung. In der ersten Sammlung, für die ich fünf Papers kuratiert habe, beschäftigt sich ein Paper mit der überraschenden Tatsache, dass Finetuning eines Foundation Models dazu führen (oder dafür genutzt werden) kann, die Sicherheitsplanken auszuhebeln, die dem Modell vom Anbieter mitgegeben wurden:

Dafür braucht es nur wenige, nachteilig gestaltete Trainingsbeispiele: Sicherheitsleitplanken von GPT-3.5 Turbo konnten durch ein Finetuning mit nur 10 solchen Beispielen zu Kosten von weniger als 0,20 Dollar über die APIs von Open AI ausgehebelt werden, wodurch das Modell auf nahezu alle schädlichen Anweisungen reagiert.

Forschung zeigt vor allem auch, dass selbst ohne böswillige Absichten ein einfaches Finetuning mit gutartigen und häufig verwendeten Datensätzen die Sicherheitsausrichtung von LLMs unbeabsichtigt verschlechtern kann, wenn auch in geringerem Ausmaß.

Wichtigste Erkenntnis: Selbst wenn die anfängliche Sicherheitsabstimmung eines Modells einwandfrei ist, muss sie nach dem Finetuning nicht unbedingt weiterhin so sein.

Ein wichtiger Aspekt, der bei der Anpassung der Modelle mitgedacht werden muss.

Hier das Paper: „Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!“ (Preprint, PDF auf ArXiV)

Hier der Beitrag bei der FAZ mit allen 5 Papers: Finetuning als Sicherheitsrisiko, Produktivitätssteigerungen mit KI, LLM in der Medizin und mehr

AI
Marcel Weiß
Unabhängiger Analyst, Publizist & Speaker ~ freier Autor bei FAZ, Podcaster auf neunetz.fm, Co-Host des Onlinehandels-Podcasts Exchanges
Großartig! Du hast Dich erfolgreich angemeldet.
Willkommen zurück! Du hast Dich erfolgreich eingeloggt.
Du hast neunetz.com erfolgreich abonniert.
Dein Link ist abgelaufen.
Erfolg! Suche Dein in Deiner E-Mail nach einem magischen Link zur Anmeldung.
Erfolg! Deine Zahlungsinformationen wurden aktualisiert.
Deine Abrechnung wurde nicht aktualisiert.