超棒的大语言模型可解释性

精心策划的令人惊叹的工具、论文、文章和社区列表，专注于大语言模型(LLM)可解释性。

学习可解释性工具 - 一个用于机器学习模型可视化和理解的开源平台，支持分类、回归和生成模型（文本和图像数据）；包括显著性方法、注意力归因、反事实、TCAV、嵌入可视化和方面式数据分析。
Comgra - Comgra帮助你分析和调试PyTorch中的神经网络。
Pythia - 可解释性分析，用于了解知识在自回归变换器训练过程中如何发展和演变。
Phoenix - AI可观察性和评估 - 在笔记本中评估、排除故障和微调您的LLM、CV和NLP模型。
Floom 面向开发者的AI网关和市场，实现AI功能与产品的简化集成。
自动化可解释性 - 用于自动生成、模拟和评分神经元行为解释的代码。
Fmr.ai - AI可解释性和可解释性平台。
注意力分析 - 分析BERT变换器的注意力图。
SpellGPT - 探索GPT-3拼写自身标记字符串的能力。
SuperICL - 超级上下文学习代码，允许黑盒LLM与本地微调的较小模型一起工作。
Git Re-Basin - "Git Re-Basin：合并模型模置换对称性"的代码发布。
Functionary - 可以解释和执行函数/插件的聊天语言模型。
稀疏自编码器 - 用于机械可解释性的稀疏自编码器。
Rome - 在GPT中定位和编辑事实关联。
Inseq - 序列生成模型的可解释性。
神经元查看器 - 查看神经元激活和解释的工具。
LLM可视化 - 低级别可视化LLM。
Vanna - 使用任何LLM通过RAG生成SQL的抽象。
复制抑制 - 旨在帮助探索GPT-2 Small的不同提示，作为关于LLM中复制抑制研究项目的一部分。
TransformerViz - 通过潜在空间可视化变换器模型的交互工具。
TransformerLens - 用于生成语言模型机械可解释性的库。
Awesome-Attention-Heads - 精心编制的列表，总结了注意力头的各种功能。

大语言模型可解释性论文

关于大语言模型可解释性的学术和行业论文。

《简化模型泛化中的可解释性错觉》 - 展示了基于简化模型（如线性探测等）的可解释性方法容易产生泛化错觉。
《基于自影响指导的语言模型预训练数据重加权》 - 将训练数据归因方法应用于重新加权训练数据以提高性能。
《数据相似性不足以解释语言模型性能》 - 讨论了嵌入模型在解释有效数据选择方面的局限性。
《语言模型的事后解释可以改进语言模型》 - 评估了语言模型生成的解释对提高模型质量的能力。
《定位能否指导编辑？语言模型中基于因果的定位与知识编辑的惊人差异》 - 强调了因果追踪的局限性：通过编辑与因果追踪建议不同位置的权重，可以改变LLM中存储事实的方式。
《在大海捞针中寻找神经元：稀疏探测的案例研究》 - 探讨了大型语言模型(LLMs)神经元激活中高层次人类可解释特征的表示。
《复制抑制：全面理解注意力头》 - 调查了GPT-2 Small中的特定注意力头，揭示了其在复制抑制中的主要作用。
《大型语言模型中情感的线性表示》 - 展示了情感在大型语言模型(LLMs)中的表示方式，发现这些模型中情感是线性表示的。
《涌现的世界表征：探索在合成任务上训练的序列模型》 - 探讨了在训练预测黑白棋合法移动的GPT变体中涌现的内部表征。
《面向机制可解释性的自动电路发现》 - 引入了自动电路发现(ACDC)算法，用于识别神经网络中的重要单元。
《普遍性的玩具模型：逆向工程网络如何学习群操作》 - 使用表示理论研究小型神经网络如何学习群组合。
《因果中介分析在解释神经自然语言处理中的应用：以性别偏见为例》 - 将因果中介分析作为解释自然语言处理中神经模型的方法。
《神经缩放的量化模型》 - 提出量化模型来解释神经网络中的神经缩放定律。
《在没有监督的情况下发现语言模型中的潜在知识》 - 提出一种方法，无需监督即可从语言模型的内部激活中提取对是非问题的准确答案。
《GPT-2如何计算大于？解释预训练语言模型中的数学能力》 - 分析了GPT-2 Small的数学能力，重点关注其执行"大于"运算的能力。
《走向单义性：使用字典学习分解语言模型》 - 使用稀疏自编码器将单层Transformer的激活分解为可解释的单义特征。
《语言模型可以解释语言模型中的神经元》 - 探讨了如何使用GPT-4等语言模型来解释类似模型中神经元的功能。
《自监督序列模型世界模型中的涌现线性表示》 - 研究了黑白棋序列模型世界模型中的线性表示。
《走向Transformer中逐步推理的机制理解：一个合成图导航模型》 - 使用基于有向无环图导航的合成任务探索自回归语言模型中的逐步推理。
《后继头：野外中反复出现的、可解释的注意力头》 - 介绍了"后继头"，这是LLM中能够递增具有自然顺序的标记（如数字和日期）的注意力头。
《大型语言模型不是稳健的多项选择选择器》 - 分析了LLM在多项选择题中的偏见和稳健性，揭示了由于固有的"选择偏见"，它们容易受到选项位置变化的影响。
《超越神经网络特征相似性：网络特征复杂性及其基于范畴论的解释》 - 提出了一种通过范畴论检验特征复杂性来理解神经网络的新方法。
《让我们逐步验证》 - 专注于使用步骤级人类反馈来提高LLM在多步推理任务中的可靠性。
《简化模型泛化中的可解释性错觉》 - 研究了用于解释深度学习系统的简化表示（如SVD）的局限性，特别是在分布外场景中。
《魔鬼在神经元中：解释和缓解语言模型中的社会偏见》 - 提出了一种识别和缓解语言模型中社会偏见的新方法，引入了"社会偏见神经元"的概念。
《解释大型语言模型在数学加法中的内部机制》 - 调查了LLM如何执行数学加法任务。
《测量语言模型中的特征稀疏性》 - 开发了评估语言模型激活中稀疏编码技术成功程度的指标。
《叠加的玩具模型》 - 研究模型如何表示比维度更多的特征，特别是当特征稀疏时。
《SPINE：稀疏可解释的神经嵌入》 - 提出SPINE方法，使用去噪自编码器将密集词嵌入转换为稀疏、可解释的嵌入。
《基于字典学习的Transformer可视化：语境化嵌入作为Transformer因子的线性叠加》 - 引入了一种使用字典学习可视化Transformer网络的新方法。
《Pythia：跨训练和缩放分析大型语言模型的套件》 - 介绍了Pythia，一个设计用于分析LLM训练和缩放行为的工具集。
《关于可解释性和特征表示：情感神经元的分析》 - 批判性地检验了"情感神经元"的有效性。
《在玩具模型中工程单义性》 - 探讨了在神经网络中工程单义性，其中单个神经元对应于不同的特征。
《神经网络中的多义性和容量》 - 研究了神经网络中的多义性，其中单个神经元表示多个特征。
InceptionV1早期视觉概述 - 对InceptionV1神经网络初始五层的全面探索，重点关注早期视觉。
BERT几何结构的可视化与测量 - 深入研究BERT对语言信息的内部表示，聚焦于句法和语义两个方面。
大型语言模型中的神经元：死亡、N-gram、位置 - 对大型语言模型中神经元的分析，重点关注OPT系列。
大型语言模型能自我解释吗？ - 评估大型语言模型在情感分析任务中生成自我解释的效果。
野外可解释性：GPT-2小型模型（arXiv） - 提供了GPT-2小型模型在自然语言处理中执行间接宾语识别（IOI）的机制解释。
稀疏自编码器在语言模型中发现高度可解释的特征 - 探索使用稀疏自编码器从大型语言模型中提取更易解释和多义性更低的特征。
大型语言模型中的突现和可预测记忆 - 研究使用稀疏自编码器来增强大型语言模型特征的可解释性。
Transformer在短视方法下难以解释：以有界戴克文法为例 - 证明仅关注Transformer的特定部分（如注意力头或权重矩阵）可能导致误导性的可解释性声明。
真理的几何：大型语言模型对真/假数据集表示的线性结构突现 - 本文使用真/假数据集研究大型语言模型中真理的表示。
大规模可解释性：识别Alpaca中的因果机制 - 本研究提出了无界分布对齐搜索（Boundless DAS），这是一种解释Alpaca等大型语言模型的高级方法。
表示工程：人工智能透明度的自顶向下方法 - 引入表示工程（RepE），这是一种提高人工智能透明度的新方法，关注高层表示而非神经元或电路。
用语言模型以自然语言解释黑盒文本模块 - 使用合成文本评估大型语言模型注意力头的自然语言解释。
N2G：量化大型语言模型中可解释神经元表示的可扩展方法 - 将每个大型语言模型神经元解释为图。
在训练期间使用大型语言模型增强可解释模型 - 利用大型语言模型构建文本数据的可解释分类器。
ChainPoll：一种高效的大型语言模型幻觉检测方法 - ChainPoll是一种新型幻觉检测方法，其性能显著优于现有替代方案；RealHall是一套精心策划的基准数据集，用于评估近期文献中提出的幻觉检测指标。
对训练于符号多步推理任务的Transformer的机制分析 - 识别在训练用于执行树状路径查找的Transformer中的反向链接电路。