Anthropic ha presentado un novedoso ‘escáner cerebral’ de IA para mejorar la comprensión de los grandes modelos lingüísticos (LLM) y abordar sus limitaciones, sobre todo en matemáticas y alucinaciones. Esta investigación emplea una técnica denominada trazado de circuitos, inspirada en la neurociencia, que permite a los investigadores rastrear los procesos de toma de decisiones dentro del modelo. A pesar de la capacidad de diseñar y entrenar estos modelos, su funcionamiento interno sigue siendo en gran medida opaco, lo que plantea la necesidad de profundizar en su comprensión.
El estudio reveló que los LLs son más complejos que los LLs.
El estudio reveló que los LLM no se limitan a predecir la palabra siguiente, sino que pueden mostrar una planificación compleja, como se demostró al generar coplas rimadas. Por ejemplo, Claude, el modelo de Anthropic, se aproxima a problemas matemáticos sencillos siguiendo pasos poco convencionales, llegando finalmente a la respuesta correcta pero dando explicaciones engañosas sobre su proceso. Esto indica una desconexión significativa entre los resultados de un modelo y su razonamiento interno.
Además, la investigación sugiere que los LLM podrían pensar en un espacio conceptual común a todos los lenguajes, lo que apunta a un «lenguaje del pensamiento» universal. Aunque los resultados arrojan luz sobre algunos aspectos operativos de los LLM, la investigación también pone de relieve los retos que quedan por delante, ya que comprender por completo las estructuras de estos modelos sigue siendo una tarea que requiere mucho tiempo. En general, este trabajo supone un paso adelante en la desmitificación de las complejidades del comportamiento de la IA.
