Meta hat ein Projekt mit dem Namen “Purple Llama” ins Leben gerufen, das darauf abzielt, Open-Source-Tools für Entwickler bereitzustellen, um das Vertrauen und die Sicherheit in ihre generativen KI-Modelle zu bewerten und zu verbessern. Das Projekt umfasst die Zusammenarbeit mit anderen Entwicklern von KI-Anwendungen, Cloud-Plattformen, Chipdesignern und Softwareunternehmen. Das erste Paket, das im Rahmen von Purple Llama veröffentlicht wird, umfasst Tools zur Prüfung von Cybersicherheitsproblemen in softwaregenerierenden Modellen und ein Sprachmodell, das unangemessene oder gewalttätige Texte klassifiziert. Erste Tests haben gezeigt, dass große Sprachmodelle in 30 Prozent der Fälle anfälligen Code vorschlagen. Mit dem Tool CyberSec Eval können Entwickler Benchmark-Tests durchführen, um die Sicherheit ihrer KI-Modelle zu überprüfen. Llama Guard ist ein Sprachmodell, das darauf trainiert ist, Text zu klassifizieren und sexuell eindeutige, anstößige, schädliche oder ungesetzliche Inhalte zu erkennen. Entwickler können ihre Modelle testen, indem sie von Llama Guard generierte Eingabeaufforderungen und Ausgabeantworten ausführen. Purple Llama verfolgt einen zweigleisigen Ansatz für Sicherheit und Schutz, der sich sowohl auf die Eingaben als auch auf die Ausgaben von KI konzentriert. Das Projekt zielt darauf ab, ein Massenzentrum für offenes Vertrauen und Sicherheit in der KI-Entwicklung zu schaffen.
