OpenAI 超级对齐负责人 Jan Leike 宣布,推出了一个该公司内部使用的分析 Transformer 内部结构的工具 -- Transformer Debugger (TDB) 。它结合了自动可解释性和稀疏自动编码器,无需编写代码即可快速探索模型。
目前,该项目仓库已在 MIT 协议下开放。Jan Leike 表示,TDB 目前仍然是一个处于早期阶段的研究工具,他们希望通过开源的方式让更多人使用,并在此基础上加以改进。
根据介绍,Transformer Debugger 是 OpenAI 的 Superalignment 团队开发的一款工具,旨在支持对小语言模型的特定行为进行研究。
TDB 可以在编写代码之前进行快速探索,能够干预前向传递并查看它对特定行为的影响。它可以用来回答诸如"为什么模型会输出 token A 而不是 token B"或"为什么 attention head H 会关注 token T"之类的问题。它通过识别对行为有贡献的特定组件(neurons、attention heads、autoencoder latents),显示自动生成的关于导致这些组件激活最强烈的原因的解释,以及追踪组件之间的连接以帮助发现联系。
本次开源发布的内容包括:
- Neuron viewer:一个 React 应用程序,托管 TDB 以及包含有关各个模型组件(MLP neurons、attention heads and autoencoder latents for both)信息的页面。
- Activation server:对主题模型进行推理,为TDB提供数据的后端服务器。它还从公共 Azure 存储桶读取数据并提供数据。
- Models:一个用于 GPT-2 模型及其自动编码器的简单推理库,带有用于捕获激活的 hook。
- Collated activation datasets:MLP neurons、attention heads 和 autoencoder latents 的顶级激活数据集示例。
此外, OpenAI 方面还放出了几个概述 TDB 能力的视频,并展示了如何使用它来研究论文“Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small”。