awesome-llm-interpretability

awesome-llm-interpretability

深入理解大语言模型内部机制与可解释性

该项目汇集了大语言模型(LLM)可解释性领域的核心资源,包括解释性工具、学术论文、行业报告和深度分析文章。内容涵盖神经元分析、注意力机制、模型行为等多个维度,旨在帮助研究人员和开发者深入理解LLM内部原理,提升模型透明度。项目为LLM可解释性研究提供了全面的知识库和工具集。

LLM可解释性神经网络人工智能机器学习Github开源项目

超棒的大语言模型可解释性

精心策划的令人惊叹的工具、论文、文章和社区列表,专注于大语言模型(LLM)可解释性。

目录

大语言模型可解释性工具

用于大语言模型可解释性和分析的工具和库。

  1. 学习可解释性工具 - 一个用于机器学习模型可视化和理解的开源平台,支持分类、回归和生成模型(文本和图像数据);包括显著性方法、注意力归因、反事实、TCAV、嵌入可视化和方面式数据分析。
  2. Comgra - Comgra帮助你分析和调试PyTorch中的神经网络。
  3. Pythia - 可解释性分析,用于了解知识在自回归变换器训练过程中如何发展和演变。
  4. Phoenix - AI可观察性和评估 - 在笔记本中评估、排除故障和微调您的LLM、CV和NLP模型。
  5. Floom 面向开发者的AI网关和市场,实现AI功能与产品的简化集成。
  6. 自动化可解释性 - 用于自动生成、模拟和评分神经元行为解释的代码。
  7. Fmr.ai - AI可解释性和可解释性平台。
  8. 注意力分析 - 分析BERT变换器的注意力图。
  9. SpellGPT - 探索GPT-3拼写自身标记字符串的能力。
  10. SuperICL - 超级上下文学习代码,允许黑盒LLM与本地微调的较小模型一起工作。
  11. Git Re-Basin - "Git Re-Basin:合并模型模置换对称性"的代码发布。
  12. Functionary - 可以解释和执行函数/插件的聊天语言模型。
  13. 稀疏自编码器 - 用于机械可解释性的稀疏自编码器。
  14. Rome - 在GPT中定位和编辑事实关联。
  15. Inseq - 序列生成模型的可解释性。
  16. 神经元查看器 - 查看神经元激活和解释的工具。
  17. LLM可视化 - 低级别可视化LLM。
  18. Vanna - 使用任何LLM通过RAG生成SQL的抽象。
  19. 复制抑制 - 旨在帮助探索GPT-2 Small的不同提示,作为关于LLM中复制抑制研究项目的一部分。
  20. TransformerViz - 通过潜在空间可视化变换器模型的交互工具。
  21. TransformerLens - 用于生成语言模型机械可解释性的库。
  22. Awesome-Attention-Heads - 精心编制的列表,总结了注意力头的各种功能。

大语言模型可解释性论文

关于大语言模型可解释性的学术和行业论文。

  1. 《简化模型泛化中的可解释性错觉》 - 展示了基于简化模型(如线性探测等)的可解释性方法容易产生泛化错觉。

  2. 《基于自影响指导的语言模型预训练数据重加权》 - 将训练数据归因方法应用于重新加权训练数据以提高性能。

  3. 《数据相似性不足以解释语言模型性能》 - 讨论了嵌入模型在解释有效数据选择方面的局限性。

  4. 《语言模型的事后解释可以改进语言模型》 - 评估了语言模型生成的解释对提高模型质量的能力。

  5. 《定位能否指导编辑?语言模型中基于因果的定位与知识编辑的惊人差异》 - 强调了因果追踪的局限性:通过编辑与因果追踪建议不同位置的权重,可以改变LLM中存储事实的方式。

  6. 《在大海捞针中寻找神经元:稀疏探测的案例研究》 - 探讨了大型语言模型(LLMs)神经元激活中高层次人类可解释特征的表示。

  7. 《复制抑制:全面理解注意力头》 - 调查了GPT-2 Small中的特定注意力头,揭示了其在复制抑制中的主要作用。

  8. 《大型语言模型中情感的线性表示》 - 展示了情感在大型语言模型(LLMs)中的表示方式,发现这些模型中情感是线性表示的。

  9. 《涌现的世界表征:探索在合成任务上训练的序列模型》 - 探讨了在训练预测黑白棋合法移动的GPT变体中涌现的内部表征。

  10. 《面向机制可解释性的自动电路发现》 - 引入了自动电路发现(ACDC)算法,用于识别神经网络中的重要单元。

  11. 《普遍性的玩具模型:逆向工程网络如何学习群操作》 - 使用表示理论研究小型神经网络如何学习群组合。

  12. 《因果中介分析在解释神经自然语言处理中的应用:以性别偏见为例》 - 将因果中介分析作为解释自然语言处理中神经模型的方法。

  13. 《神经缩放的量化模型》 - 提出量化模型来解释神经网络中的神经缩放定律。

  14. 《在没有监督的情况下发现语言模型中的潜在知识》 - 提出一种方法,无需监督即可从语言模型的内部激活中提取对是非问题的准确答案。

  15. 《GPT-2如何计算大于?解释预训练语言模型中的数学能力》 - 分析了GPT-2 Small的数学能力,重点关注其执行"大于"运算的能力。

  16. 《走向单义性:使用字典学习分解语言模型》 - 使用稀疏自编码器将单层Transformer的激活分解为可解释的单义特征。

  17. 《语言模型可以解释语言模型中的神经元》 - 探讨了如何使用GPT-4等语言模型来解释类似模型中神经元的功能。

  18. 《自监督序列模型世界模型中的涌现线性表示》 - 研究了黑白棋序列模型世界模型中的线性表示。

  19. 《走向Transformer中逐步推理的机制理解:一个合成图导航模型》 - 使用基于有向无环图导航的合成任务探索自回归语言模型中的逐步推理。

  20. 《后继头:野外中反复出现的、可解释的注意力头》 - 介绍了"后继头",这是LLM中能够递增具有自然顺序的标记(如数字和日期)的注意力头。

  21. 《大型语言模型不是稳健的多项选择选择器》 - 分析了LLM在多项选择题中的偏见和稳健性,揭示了由于固有的"选择偏见",它们容易受到选项位置变化的影响。

  22. 《超越神经网络特征相似性:网络特征复杂性及其基于范畴论的解释》 - 提出了一种通过范畴论检验特征复杂性来理解神经网络的新方法。

  23. 《让我们逐步验证》 - 专注于使用步骤级人类反馈来提高LLM在多步推理任务中的可靠性。

  24. 《简化模型泛化中的可解释性错觉》 - 研究了用于解释深度学习系统的简化表示(如SVD)的局限性,特别是在分布外场景中。

  25. 《魔鬼在神经元中:解释和缓解语言模型中的社会偏见》 - 提出了一种识别和缓解语言模型中社会偏见的新方法,引入了"社会偏见神经元"的概念。

  26. 《解释大型语言模型在数学加法中的内部机制》 - 调查了LLM如何执行数学加法任务。

  27. 《测量语言模型中的特征稀疏性》 - 开发了评估语言模型激活中稀疏编码技术成功程度的指标。

  28. 《叠加的玩具模型》 - 研究模型如何表示比维度更多的特征,特别是当特征稀疏时。

  29. 《SPINE:稀疏可解释的神经嵌入》 - 提出SPINE方法,使用去噪自编码器将密集词嵌入转换为稀疏、可解释的嵌入。

  30. 《基于字典学习的Transformer可视化:语境化嵌入作为Transformer因子的线性叠加》 - 引入了一种使用字典学习可视化Transformer网络的新方法。

  31. 《Pythia:跨训练和缩放分析大型语言模型的套件》 - 介绍了Pythia,一个设计用于分析LLM训练和缩放行为的工具集。

  32. 《关于可解释性和特征表示:情感神经元的分析》 - 批判性地检验了"情感神经元"的有效性。

  33. 《在玩具模型中工程单义性》 - 探讨了在神经网络中工程单义性,其中单个神经元对应于不同的特征。

  34. 《神经网络中的多义性和容量》 - 研究了神经网络中的多义性,其中单个神经元表示多个特征。

  35. InceptionV1早期视觉概述 - 对InceptionV1神经网络初始五层的全面探索,重点关注早期视觉。

  36. BERT几何结构的可视化与测量 - 深入研究BERT对语言信息的内部表示,聚焦于句法和语义两个方面。

  37. 大型语言模型中的神经元:死亡、N-gram、位置 - 对大型语言模型中神经元的分析,重点关注OPT系列。

  38. 大型语言模型能自我解释吗? - 评估大型语言模型在情感分析任务中生成自我解释的效果。

  39. 野外可解释性:GPT-2小型模型(arXiv) - 提供了GPT-2小型模型在自然语言处理中执行间接宾语识别(IOI)的机制解释。

  40. 稀疏自编码器在语言模型中发现高度可解释的特征 - 探索使用稀疏自编码器从大型语言模型中提取更易解释和多义性更低的特征。

  41. 大型语言模型中的突现和可预测记忆 - 研究使用稀疏自编码器来增强大型语言模型特征的可解释性。

  42. Transformer在短视方法下难以解释:以有界戴克文法为例 - 证明仅关注Transformer的特定部分(如注意力头或权重矩阵)可能导致误导性的可解释性声明。

  43. 真理的几何:大型语言模型对真/假数据集表示的线性结构突现 - 本文使用真/假数据集研究大型语言模型中真理的表示。

  44. 大规模可解释性:识别Alpaca中的因果机制 - 本研究提出了无界分布对齐搜索(Boundless DAS),这是一种解释Alpaca等大型语言模型的高级方法。

  45. 表示工程:人工智能透明度的自顶向下方法 - 引入表示工程(RepE),这是一种提高人工智能透明度的新方法,关注高层表示而非神经元或电路。

  46. 用语言模型以自然语言解释黑盒文本模块 - 使用合成文本评估大型语言模型注意力头的自然语言解释。

  47. N2G:量化大型语言模型中可解释神经元表示的可扩展方法 - 将每个大型语言模型神经元解释为图。

  48. 在训练期间使用大型语言模型增强可解释模型 - 利用大型语言模型构建文本数据的可解释分类器。

  49. ChainPoll:一种高效的大型语言模型幻觉检测方法 - ChainPoll是一种新型幻觉检测方法,其性能显著优于现有替代方案;RealHall是一套精心策划的基准数据集,用于评估近期文献中提出的幻觉检测指标。

  50. 对训练于符号多步推理任务的Transformer的机制分析 - 识别在训练用于执行树状路径查找的Transformer中的反向链接电路。


LLM 可解释性文章

关于LLM可解释性的有见地的文章和博客文章。

  1. 机器学习模型是记忆还是泛化? - 一个交互式可视化,探索称为"顿悟"的现象(VISxAI名人堂)
  2. 语言模型学到了什么? - 一个交互式可视化,用于理解大型语言模型的工作原理,并了解其偏见的本质(VISxAI名人堂)
  3. 重新构想人工智能的新计算方法 - 讨论了超维度计算,这是一种涉及超维度向量(超向量)的新方法,用于更高效、透明和稳健的人工智能。
  4. 解释GPT:对数镜头 - 探讨了对数镜头如何揭示GPT的概率预测如何在其各层中逐步收敛,从最初的无意义或浅显猜测到更精细的预测。
  5. 顿悟现象的机制可解释性分析 - 探讨了深度学习中的"顿悟"现象,即模型在训练过程中突然从记忆转变为泛化。
  6. 机制可解释性中200个具体的开放问题 - 一系列帖子讨论机制可解释性(MI)领域的开放研究问题,MI专注于对神经网络进行逆向工程。
  7. 评估LLM是一个雷区 - 评估像GPT这样的大型语言模型(LLM)的性能和偏见所面临的挑战。
  8. 归因修补:工业规模的激活修补 - 一种使用梯度对神经网络中的激活修补进行线性近似的方法。
  9. 因果清洗:严格测试可解释性假设的方法[红木研究] - 介绍了因果清洗,这是一种评估神经网络中机制解释质量的方法。
  10. 4层仅注意力transformer中Python文档字符串的电路 - 提出了量化模型来解释神经网络中的神经尺度定律。
  11. 在没有监督的情况下发现语言模型中的潜在知识 - 研究了4层transformer模型中负责生成Python文档字符串的特定神经电路。
  12. 走向透明AI:解释深度神经网络内部结构的调查 - 关于机制可解释性的调查

LLM可解释性团体

致力于LLM可解释性的社区和团体。

  1. PAIR - 在Google工作于开源工具交互式可探索可视化研究可解释性方法
  2. Alignment Lab AI - 专注于AI对齐的研究人员小组。
  3. Nous Research - 讨论可解释性各种主题的研究小组。
  4. EleutherAI - 专注于大型模型可解释性和对齐的非营利AI研究实验室。

LLM调查论文

LLM的调查论文。

  1. 大型语言模型调查 - 这篇调查论文对LLM相关文献进行了最新回顾,可以作为研究人员和工程师的有用资源。

贡献与合作

详情请参见CONTRIBUTINGCODE-OF-CONDUCT

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多