Anthropic hat einen neuartigen KI-Gehirnscanner eingeführt, um das Verständnis von großen Sprachmodellen (LLMs) zu verbessern und ihre Grenzen zu überwinden, insbesondere bei Mathematik und Halluzinationen. Diese Forschung verwendet eine Technik namens Circuit Tracing, die von der Neurowissenschaft inspiriert ist und es den Forschern ermöglicht, Entscheidungsprozesse innerhalb des Modells zu verfolgen. Trotz der Möglichkeit, diese Modelle zu entwerfen und zu trainieren, bleibt ihre interne Funktionsweise weitgehend undurchsichtig, so dass tiefere Einblicke erforderlich sind.
Die Studie zeigt, dass die LL-Modelle in der Lage sind, die Grenzen des Denkens zu überwinden.
Die Studie ergab, dass LLMs nicht nur das nächste Wort vorhersagen, sondern auch komplexe Planungen vornehmen können, wie bei der Erzeugung von Reimpaaren gezeigt wurde. Zum Beispiel nähert sich Claude, das Modell von Anthropic, einfachen mathematischen Problemen durch unkonventionelle Schritte und kommt schließlich zur richtigen Antwort, während es irreführende Erklärungen über seinen Prozess liefert. Dies deutet auf eine erhebliche Diskrepanz zwischen den Ergebnissen eines Modells und seinen internen Überlegungen hin.
>
Darüber hinaus legen die Forschungsergebnisse nahe, dass LLMs in einem konzeptionellen Raum denken, der von allen Sprachen geteilt wird, was auf eine universelle ‘Sprache des Denkens’ hindeutet. Während die Ergebnisse einige operative Aspekte von LLMs beleuchten, heben die Forschungsergebnisse auch die Herausforderungen hervor, die vor uns liegen, da das vollständige Verständnis dieser Modelle’ Strukturen ein zeitaufwändiges Unterfangen bleibt. Insgesamt markiert diese Arbeit einen Schritt nach vorn bei der Entmystifizierung der Komplexität des KI-Verhaltens.
