Das neue Tool von OpenAI versucht, das Verhalten von Sprachmodellen zu erklären

OpenAI hat ein Werkzeug entwickelt, um herauszufinden, welche Teile eines großen Sprachmodells (LLM) für welches Verhalten verantwortlich sind. Das Tool verwendet ein Sprachmodell, um die Funktionen der Komponenten anderer, architektonisch einfacherer LLMs herauszufinden, insbesondere OpenAIs eigenes GPT-2. Das Tool versucht, das Verhalten der Neuronen in einem LLM zu simulieren. Es lässt Textsequenzen durch das zu evaluierende Modell laufen und wartet auf Fälle, in denen ein bestimmtes Neuron häufig aktiviert wird. Dann zeigt es GPT-4, dem neuesten textgenerierenden KI-Modell von OpenAI, diese hochaktiven Neuronen und lässt GPT-4 eine Erklärung generieren. Die Forscher waren in der Lage, Erklärungen für alle 307.200 Neuronen in GPT-2 zu generieren, die sie in einem Datensatz zusammengestellt haben, der zusammen mit dem Toolcode veröffentlicht wurde. Werkzeuge wie dieses könnten eines Tages dazu verwendet werden, die Leistung eines LLM zu verbessern, um beispielsweise Verzerrungen oder Toxizität zu verringern. Bei etwa 1.000 dieser Neuronen, einem kleinen Teil der Gesamtmenge, war das Tool in seinen Erklärungen zuversichtlich. Das Tool identifiziert Neuronen, die schichtübergreifend im LLM aktiviert werden. Die Forscher hoffen, dass dies einen vielversprechenden Weg eröffnet, um die Interpretierbarkeit auf eine automatisierte Weise anzugehen, auf der andere aufbauen und dazu beitragen können.

Ganzer Artikel

Einen Kommentar hinterlassen