OpenAI ha desarrollado una herramienta para identificar qué partes de un gran modelo de lenguaje (LLM) son responsables de cada uno de sus comportamientos. La herramienta utiliza un modelo de lenguaje para averiguar las funciones de los componentes de otros LLM arquitectónicamente más sencillos, en concreto el GPT-2 de OpenAI. La herramienta intenta simular el comportamiento de las neuronas de un LLM. Ejecuta secuencias de texto a través del modelo que se está evaluando y espera los casos en los que una neurona en particular se activa con frecuencia. A continuación, muestra a GPT-4, el último modelo de IA generador de texto de OpenAI’, estas neuronas muy activas y hace que GPT-4 genere una explicación. Los investigadores consiguieron generar explicaciones para las 307.200 neuronas de GPT-2, que recopilaron en un conjunto de datos que se ha publicado junto con el código de la herramienta. Herramientas como ésta podrían utilizarse algún día para mejorar el rendimiento de un LLM’, por ejemplo, para reducir los sesgos o la toxicidad. La herramienta se mostró segura en sus explicaciones para unas 1.000 de esas neuronas, una pequeña fracción del total. La herramienta identifica las neuronas que se activan en todas las capas del LLM. Los investigadores esperan que esto abra una vía prometedora para abordar la interpretabilidad de forma automatizada en la que otros puedan basarse y a la que puedan contribuir.
La herramienta identifica las neuronas que se activan en todas las capas del LLM.
