Anthropic, büyük dil modellerinin (LLM’ler) anlaşılmasını geliştirmek ve özellikle matematik ve halüsinasyondaki sınırlamalarını ele almak için yeni bir yapay zeka ‘beyin tarayıcısı’ tanıttı. Bu araştırma, araştırmacıların model içindeki karar verme süreçlerini izlemelerine olanak tanıyan ve sinirbilimden esinlenen devre izleme adı verilen bir teknik kullanmaktadır. Bu modelleri tasarlama ve eğitme yeteneğine rağmen, iç işleyişleri büyük ölçüde opak kalmakta ve daha derin içgörülere ihtiyaç duyulmaktadır.
Çalışma, LLM’lerin yalnızca bir sonraki kelimeyi tahmin etmediğini, kafiyeli beyitler oluştururken gösterildiği gibi karmaşık planlama sergileyebildiğini ortaya koydu. Örneğin, Anthropic’in modeli Claude, basit matematik problemlerine alışılmadık adımlarla yaklaşır, sonuçta doğru cevaba ulaşırken süreci hakkında yanıltıcı açıklamalar sunar. Bu, bir modelin çıktıları ile iç muhakemesi arasında önemli bir kopukluk olduğunu gösterir.
Ayrıca araştırma, LLM’lerin diller arasında paylaşılan kavramsal bir alanda düşünebileceğini ve evrensel bir ‘düşünce diline işaret edebileceğini öne sürüyor.’ Bulgular LLM’lerin bazı operasyonel yönlerini aydınlatırken, araştırma aynı zamanda bu modellerin ’ yapılarını tam olarak anlamak zaman alıcı bir çaba olmaya devam ettiği için önümüzdeki zorlukları da vurguluyor. Genel olarak, bu çalışma yapay zeka davranışının karmaşıklığının aydınlatılmasında ileriye doğru atılmış bir adımdır.
