语言模型工具集锦:AI工具、网站、应用与开源项目精选

Cascades: 谷歌研究推出的强大语言模型组合库

Cascades: 谷歌研究推出的强大语言模型组合库

Cascades是谷歌研究团队开发的Python库,旨在实现语言模型的复杂组合,如草稿、思维链、工具使用和选择推理等。本文深入探讨了Cascades的功能、应用场景及其在人工智能领域的重要意义。

Cascades语言模型Python库概率编程复杂组合Github开源项目
大型语言模型微调的安全风险:探讨LLMs-Finetuning-Safety项目的研究发现

大型语言模型微调的安全风险:探讨LLMs-Finetuning-Safety项目的研究发现

本文深入探讨了LLMs-Finetuning-Safety项目的研究成果,揭示了大型语言模型在微调过程中可能面临的安全风险,并探讨了潜在的缓解策略,为AI安全研究提供了新的思路。

微调语言模型安全性GPT-3.5harmful examplesGithub开源项目
JailbreakBench: 开放的大型语言模型越狱鲁棒性基准测试

JailbreakBench: 开放的大型语言模型越狱鲁棒性基准测试

JailbreakBench是一个开源的大型语言模型越狱鲁棒性基准测试平台,旨在全面跟踪生成成功越狱和防御这些越狱的进展。它提供了一个包含200种良性和滥用行为的数据集、官方排行榜以及提交的越狱字符串存储库,为研究人员提供了一个稳定的方式来比较未来算法的性能。

JailbreakBench语言模型基准测试安全性AI伦理Github开源项目
BIG-bench: 探索大规模语言模型的极限

BIG-bench: 探索大规模语言模型的极限

BIG-bench是一个协作性的基准测试,旨在探测大型语言模型的能力并推断它们的未来潜力。它包含200多个多样化的任务,涵盖语言学、常识推理、数学等多个领域,为评估和改进语言模型提供了重要参考。

BIG-bench语言模型基准测试任务创建模型评估Github开源项目
TransformerLens: 揭开语言模型内部机制的强大工具

TransformerLens: 揭开语言模型内部机制的强大工具

TransformerLens是一个专为机制可解释性而设计的开源库,旨在帮助研究者探索和理解GPT风格语言模型的内部工作原理。本文将介绍TransformerLens的主要功能、应用场景以及它在机制可解释性研究中的重要作用。

TransformerLens机械可解释性语言模型神经网络解析开源工具Github开源项目
SparseGPT:一次性准确剪枝大规模语言模型的创新技术

SparseGPT:一次性准确剪枝大规模语言模型的创新技术

SparseGPT是一种新的模型剪枝方法,可以在一次剪枝操作中将大规模语言模型剪枝至少50%,且几乎不损失精度。这一突破性技术有望大幅降低大型语言模型的推理成本。

SparseGPT语言模型模型压缩稀疏化神经网络剪枝Github开源项目
PyReFT: 一个强大的表征微调库助力语言模型高效适配

PyReFT: 一个强大的表征微调库助力语言模型高效适配

PyReFT是一个创新的表征微调(ReFT)库,支持通过可训练的干预来调整语言模型的内部表征。与现有的参数高效微调方法相比,PyReFT可以以更少的参数实现更强大的性能,同时提高微调的效率和可解释性。本文将详细介绍PyReFT的特点、使用方法及其在语言模型微调中的应用。

ReFT语言模型表示微调pyreft人工智能Github开源项目
数据选择技术在语言模型训练中的应用与发展

数据选择技术在语言模型训练中的应用与发展

本文全面介绍了数据选择在语言模型训练过程中的重要性、常用技术和最新进展,涵盖了预训练、指令微调、偏好对齐等多个阶段的数据选择方法,为从事语言模型研究和开发的读者提供了系统的参考。

语言模型数据选择预训练多语言Web数据Github开源项目
Guidance: 掌控大型语言模型的先进工具

Guidance: 掌控大型语言模型的先进工具

Guidance是一种创新的编程语言,旨在精确控制和引导大型语言模型的输出。本文将深入探讨Guidance的特性、应用场景及其在人工智能领域的重要意义。

Guidance语言模型AI编程代码生成多模态Github开源项目
Honest LLaMA: 通过推理时干预提升语言模型的诚实度

Honest LLaMA: 通过推理时干预提升语言模型的诚实度

本文介绍了一种名为推理时干预(ITI)的新技术,旨在提高大型语言模型的诚实度。该方法通过在推理过程中调整模型激活来实现,显著提升了LLaMA模型在TruthfulQA基准测试上的表现。

Inference-Time InterventionLLaMATruthfulQA语言模型真实性Github开源项目
REST: 高效的检索式推测解码技术

REST: 高效的检索式推测解码技术

REST是一种基于检索的推测解码方法,旨在提高大型语言模型的生成速度。它不依赖草稿语言模型,而是利用数据存储来检索和使用草稿标记,无需额外训练即可加速任何现有语言模型。

REST语言模型推理加速检索式生成推测解码Github开源项目
Video-LLaMA: 革命性的音视频理解语言模型

Video-LLaMA: 革命性的音视频理解语言模型

Video-LLaMA是一个创新的多模态框架,赋予大型语言模型理解视频和音频内容的能力。它通过预训练的视觉和音频编码器以及冻结的大型语言模型,实现了跨模态训练,能够捕捉视频场景的时间变化并整合音视频信号,为视频理解开辟了新的可能性。

Video-LLaMA多模态视频理解语言模型AI对话Github开源项目
LLM攻击:对齐语言模型的普遍性和可转移对抗攻击

LLM攻击:对齐语言模型的普遍性和可转移对抗攻击

本文深入探讨了针对大型语言模型(LLM)的普遍性和可转移对抗攻击,介绍了最新的LLM攻击研究成果,分析了攻击原理和防御对策,为LLM安全提供了重要参考。

LLM攻击对抗性攻击语言模型GCG算法实验复现Github开源项目
StreamingLLM: 实现大语言模型的无限长度输入处理

StreamingLLM: 实现大语言模型的无限长度输入处理

StreamingLLM是一种创新的框架,能够让预训练的大语言模型处理无限长度的输入,而不损失效率和性能。本文将深入介绍StreamingLLM的原理、优势及应用前景。

StreamingLLM语言模型注意力机制无限长度输入AI对话Github开源项目
InfiniteBench: 突破100K令牌的长上下文评估基准

InfiniteBench: 突破100K令牌的长上下文评估基准

InfiniteBench是一个创新的基准测试,旨在评估大型语言模型处理、理解和推理超长上下文(100k+令牌)的能力。这个基准测试包含12个独特的任务,涵盖了多个领域,为语言模型的长上下文处理能力提供了全面的评估。

InfiniteBench长文本评估语言模型基准测试人工智能Github开源项目
LongMem:为大型语言模型增添长期记忆能力

LongMem:为大型语言模型增添长期记忆能力

微软研究院提出的LongMem框架,为大语言模型赋予了长期记忆能力,可以处理无限长度的上下文,同时降低GPU内存使用并提高推理速度。本文深入介绍LongMem的原理、实现和应用。

LongMem语言模型长期记忆预训练评估Github开源项目
深入探讨In-context Learning: 从原理到应用的全面综述

深入探讨In-context Learning: 从原理到应用的全面综述

本文全面介绍了In-context Learning(ICL)的发展历程、核心原理、关键技术以及最新研究进展,涵盖了ICL的模型训练、提示词调优、分析评估等多个方面,为读者提供了系统而深入的ICL学习指南。

上下文学习语言模型提示工程预训练零样本学习Github开源项目
Self-RAG: 通过自我反思学习检索、生成和批评

Self-RAG: 通过自我反思学习检索、生成和批评

Self-RAG是一个创新的框架,它通过检索和自我反思来增强语言模型的质量和事实准确性。该方法训练单一的任意语言模型,使其能够按需自适应检索段落,并使用特殊的反思标记来生成和反思检索到的段落及其自身的生成内容。

Self-RAG语言模型检索增强生成自我反思关键词生成Github开源项目
多模态强化学习研究综述:从图像到语言的智能代理学习

多模态强化学习研究综述:从图像到语言的智能代理学习

本文全面综述了多模态强化学习的最新研究进展,涵盖了从视觉到语言等多种模态的强化学习方法,探讨了多模态智能代理的学习机制及应用前景。

多模态强化学习视觉强化学习语言模型预训练表征学习Github开源项目
Chain of Hindsight: 一种革命性的语言模型反馈学习方法

Chain of Hindsight: 一种革命性的语言模型反馈学习方法

Chain of Hindsight是一种新颖的技术,通过将各种反馈转化为语言序列来微调语言模型,使其能够从任何形式的反馈中学习,并显著提升模型与人类偏好的一致性。该方法突破了传统反馈学习方法的局限性,为大型语言模型的对齐问题提供了一个简单而有效的解决方案。

Chain of Hindsight语言模型反馈对齐模型训练评估Github开源项目