TransformerLens

TransformerLens

深入解析生成式语言模型的机制解释工具

TransformerLens是一个开源库,专门用于解释生成式语言模型的内部机制。它支持加载50多种开源语言模型,让研究人员能够访问模型的内部激活。用户可以缓存激活数据,并在模型运行时进行编辑、删除或替换。这个工具为深入理解复杂语言模型的工作原理提供了有力支持。

TransformerLens机械可解释性语言模型神经网络解析开源工具Github开源项目

TransformerLens

<!-- 状态图标 -->

Pypi Pypi 总下载量 PyPI -
许可证 发布
CD 测试
CD 文档
CD

一个用于生成式语言模型机制解释的库。由Bryce Meyer维护,由Neel Nanda创建

阅读文档

这是一个用于对GPT-2风格语言模型进行机制解释的库。机制解释的目标是对已训练的模型进行逆向工程,从其权重中推导出模型在训练过程中学到的算法。

TransformerLens允许你加载50多种不同的开源语言模型,并向你展示模型的内部激活。你可以缓存模型中的任何内部激活,并添加函数来编辑、移除或替换这些激活,同时模型运行。

快速开始

安装

pip install transformer_lens

使用

import transformer_lens # 加载一个模型(例如GPT-2 Small) model = transformer_lens.HookedTransformer.from_pretrained("gpt2-small") # 运行模型并获取logits和激活 logits, activations = model.run_with_cache("Hello World")

主要教程

案例展示

使用TransformerLens进行的研究:

<!-- 如果你修改了这里,也请修改docs/source/content/gallery.md -->

用户贡献的库实际应用示例:

查看我们的演示文件夹以获取更多TransformerLens实践示例

机制解释入门

机制解释是一个非常年轻和小的领域,存在大量未解决的问题。这意味着既有许多容易解决的问题,入门门槛也较低 - 如果你想提供帮助,请尝试解决其中一个问题!对于"为什么还没有人做这个"的标准回答就是:因为没有足够的人!主要资源:

支持与社区

贡献指南

如果你有问题、疑问、功能请求或错误报告,请先搜索现有问题以检查是否已经得到回答,如果没有,请提出新的问题!

你也欢迎加入Slack上的开源机械可解释性社区。请使用 GitHub Issues 讨论与包相关的具体问题,使用 Slack 进行更广泛的讨论,例如支持重要的新用例,或者如果你想对库做出重大贡献并想征求维护者的意见。我们也希望你能在 Slack 上分享你的项目!

:exclamation: HookedSAETransformer 已移除

HookedSAE 已在 TransformerLens 2.0 版本中移除。该功能正在移至SAELens。有关此版本的更多信息,请参阅随附的公告,了解新功能及 TransformerLens 的未来发展。

致谢

该库由 Neel Nanda 创建,由 Bryce Meyer 维护。

TransformerLens 的核心功能在很大程度上受到了 Anthropic 出色的 Garcon 工具接口的启发。感谢 Nelson Elhage 和 Chris Olah 构建了 Garcon 并展示了良好基础设施对促进探索性研究的价值!

创建者说明 (Neel Nanda)

我(Neel Nanda)曾在 Anthropic 可解释性团队工作,我编写这个库是因为在离开后尝试进行独立研究时,我对开源工具的现状感到非常沮丧。有很多优秀的基础设施如 HuggingFace 和 DeepSpeed 用于使用训练模型,但很少有工具可以深入研究它们的内部并逆向工程它们的工作原理。这个库试图解决这个问题,并使即使你不在拥有真正基础设施的行业组织工作,也能轻松进入这个领域!机械可解释性的一个优点是你不需要大型模型或大量计算。有许多重要的开放问题可以在 Colab 笔记本中用小模型解决!

引用

请按以下方式引用本库:

@misc{nanda2022transformerlens, title = {TransformerLens}, author = {Neel Nanda and Joseph Bloom}, year = {2022}, howpublished = {\url{https://github.com/TransformerLensOrg/TransformerLens}}, }

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具使用教程AI营销产品酷表ChatExcelAI智能客服
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

数据安全AI助手热门AI工具AI辅助写作AI论文工具论文写作智能生成大纲
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

热门AI工具AI办公办公工具智能排版AI生成PPT博思AIPPT海量精品模板AI创作
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多