OpenAI, büyük bir dil modelinin (LLM) hangi parçalarının hangi davranışlardan sorumlu olduğunu belirlemek için bir araç geliştirdi. Araç, mimari olarak daha basit olan diğer LLM’lerin, özellikle de OpenAI’nin kendi GPT-2’sinin bileşenlerinin işlevlerini anlamak için bir dil modeli kullanıyor. Araç, bir LLM’deki nöronların davranışlarını simüle etmeye çalışır. Değerlendirilen model üzerinden metin dizileri çalıştırır ve belirli bir nöronun sık sık etkinleştiği durumları bekler. Daha sonra OpenAI’nin en son metin üreten yapay zeka modeli olan GPT-4’e bu yüksek oranda aktif nöronları gösteriyor ve GPT-4’ün bir açıklama üretmesini sağlıyor. Araştırmacılar GPT-2’deki 307.200 nöronun tamamı için açıklama üretmeyi başardılar ve bu açıklamaları araç koduyla birlikte yayınlanan bir veri setinde derlediler. Bunun gibi araçlar bir gün bir LLM’nin performansını artırmak için, örneğin önyargı veya toksisiteyi azaltmak için kullanılabilir. Araç, bu nöronların yaklaşık 1.000’i, yani toplamın küçük bir kısmı için yaptığı açıklamalarda kendinden emindi. Araç, LLM’deki katmanlar arasında etkinleşen nöronları tanımlıyor. Araştırmacılar bunun, yorumlanabilirliği başkalarının da geliştirebileceği ve katkıda bulunabileceği otomatik bir şekilde ele almak için umut verici bir yol açacağını umuyor.
