自动可解释性

代码和工具

使用论文中描述的方法自动生成、模拟和评分神经元行为解释的代码。更多信息请参见neuron-explainer README。

注意：如果遇到"Error: Could not find any credentials that grant access to storage account: 'openaipublic' and container: 'neuron-explainer'"之类的错误，可以尝试注册一个Azure账户并按错误消息中的说明指定凭证来解决。

用于查看神经元激活和解释的工具，可在此处访问。更多信息请参见neuron-viewer README。

公开数据集

随同这些代码，我们还发布了GPT-2 XL神经元及其解释的公开数据集。以下是这些数据集的概述。

神经元激活：az://openaipublic/neuron-explainer/data/collated-activations/{layer_index}/{neuron_index}.json
- 神经元的分词文本序列及其激活。我们提供了多组词元和激活：激活最高的、来自几个分位数的随机样本；以及完全随机的样本。我们还提供了一些激活的基本统计数据。
- 每个文件包含一个JSON格式的NeuronRecord数据类。
神经元解释：az://openaipublic/neuron-explainer/data/explanations/{layer_index}/{neuron_index}.jsonl
- 对神经元行为的评分模型生成解释，包括模拟结果。
- 每个文件包含一个JSON格式的NeuronSimulationResults数据类。
相关神经元：az://openaipublic/neuron-explainer/data/related-neurons/weight-based/{layer_index}/{neuron_index}.json
- 列出了具有最正面和最负面连接的上游和下游神经元（定义见下文）。
- 每个文件包含一个JSON格式的数据类，其定义不包含在此仓库中。
平均激活较高的词元：az://openaipublic/neuron-explainer/data/related-tokens/activation-based/{layer_index}/{neuron_index}.json
- 列出了个别神经元平均激活最高的词元及其平均激活。
- 每个文件包含一个JSON格式的TokenLookupTableSummaryOfNeuron数据类。
具有较大入边和出边权重的词元：az://openaipublic/neuron-explainer/data/related-tokens/weight-based/{layer_index}/{neuron_index}.json
- 列出了个别神经元最正面和最负面的输入和输出词元，以及相关的权重（定义见下文）。
- 每个文件包含一个JSON格式的WeightBasedSummaryOfNeuron数据类。

更新（2023年7月5日）：我们还发布了一组GPT-2 Small的解释。使用的方法与GPT-2 XL略有不同，因此结果不能直接比较。

神经元激活：az://openaipublic/neuron-explainer/gpt2_small_data/collated-activations/{layer_index}/{neuron_index}.json
神经元解释：az://openaipublic/neuron-explainer/gpt2_small_data/explanations/{layer_index}/{neuron_index}.jsonl

更新（2023年8月30日）：我们最近发现了在对论文和这些数据集使用的GPT-2系列模型进行推理时的一个错误。具体来说，我们使用了优化的GELU实现，而不是与GPT-2相关的原始GELU实现。虽然模型在这两种配置下的行为非常相似，但我们用于生成和模拟解释的MLP后激活值与正确值的差异如下（以GPT-2 small为例）：

中位数：0.0090
90百分位：0.0252
99百分位：0.0839
99.9百分位：0.1736

连接权重的定义

参考GPT-2模型代码以理解模型权重约定。

神经元-神经元：对于两个神经元(l1, n1)和(l2, n2)，其中l1 < l2，连接强度定义为 h{l1}.mlp.c_proj.w[:, n1, :] @ diag(h{l2}.ln_2.g) @ h{l2}.mlp.c_fc.w[:, :, n2]。

神经元-词元：对于词元t和神经元(l, n)，输入权重计算为 wte[t, :] @ diag(h{l}.ln_2.g) @ h{l}.mlp.c_fc.w[:, :, n]，输出权重计算为 h{l}.mlp.c_proj.w[:, n, :] @ diag(ln_f.g) @ wte[t, :]。