OpenAI vyvinula nástroj na identifikáciu toho, ktoré časti veľkého jazykového modelu (LLM) sú zodpovedné za ktoré jeho správanie. Nástroj využíva jazykový model na zistenie funkcií komponentov iných, architektonicky jednoduchších LLM, konkrétne vlastného GPT-2 od OpenAI’. Nástroj sa pokúša simulovať správanie neurónov v LLM. Spúšťa textové sekvencie cez vyhodnocovaný model a čaká na prípady, keď sa konkrétny neurón často aktivuje. Potom ukáže GPT-4, najnovšiemu modelu umelej inteligencie OpenAI’, tieto vysoko aktívne neuróny a nechá GPT-4 vygenerovať vysvetlenie. Výskumníkom sa podarilo vygenerovať vysvetlenia pre všetkých 307 200 neurónov v GPT-2, ktoré zhromaždili v súbore údajov, ktorý bol zverejnený spolu s kódom nástroja. Takéto nástroje by sa jedného dňa mohli použiť na zlepšenie výkonu LLM’, napríklad na zníženie skreslenia alebo toxicity. Nástroj bol presvedčený o svojich vysvetleniach pre približne 1 000 z týchto neurónov, čo je malý zlomok z celkového počtu. Nástroj identifikuje neuróny aktivujúce sa naprieč vrstvami v LLM. Výskumníci dúfajú, že sa tým otvorí sľubná cesta na riešenie interpretácie automatizovaným spôsobom, na ktorom môžu stavať aj iní a prispievať k nemu.
