OpenAI telah mengembangkan alat untuk mengidentifikasi bagian mana dari model bahasa besar (LLM) yang bertanggung jawab atas perilakunya. Alat ini menggunakan model bahasa untuk mengetahui fungsi dari komponen-komponen LLM lain yang secara arsitektur lebih sederhana, khususnya GPT-2 milik OpenAI sendiri. Alat ini mencoba mensimulasikan perilaku neuron dalam LLM. Alat ini menjalankan urutan teks melalui model yang sedang dievaluasi dan menunggu kasus-kasus di mana neuron tertentu sering aktif. Kemudian menunjukkan GPT-4, model AI penghasil teks terbaru dari OpenAI, neuron-neuron yang sangat aktif ini dan meminta GPT-4 untuk menghasilkan penjelasan. Para peneliti dapat menghasilkan penjelasan untuk semua 307.200 neuron di GPT-2, yang mereka kumpulkan dalam kumpulan data yang telah dirilis bersama dengan kode alat. Alat seperti ini suatu hari nanti dapat digunakan untuk meningkatkan kinerja LLM, misalnya, untuk mengurangi bias atau toksisitas. Alat ini yakin dengan penjelasannya untuk sekitar 1.000 neuron, sebagian kecil dari total neuron. Alat ini mengidentifikasi neuron yang aktif di seluruh lapisan di LLM. Para peneliti berharap ini akan membuka jalan yang menjanjikan untuk mengatasi kemampuan interpretasi dengan cara otomatis yang dapat dikembangkan dan dikontribusikan oleh orang lain.
