llm论文笔记

来自Latent Space论文俱乐部的笔记。跟随或开始你自己的阅读！

注意力机制即所需： 查询、键和值就是你所需要的*（*还需要位置嵌入、多头注意力、前馈层、跳跃连接等）
GPT：通过生成式预训练改进语言理解： 解码器就是你所需要的*（*还需要预训练+微调）
BERT：用于语言理解的深度双向Transformer预训练： 编码器就是你所需要的*。从左到右的语言建模并不是你所需要的全部。（*还需要预训练+微调）
T5：探索统一文本到文本Transformer的迁移学习极限： 仅编码器或仅解码器并不是你所需要的全部，但文本到文本是你所需要的*（*还需要预训练+微调）
GPT2：语言模型是无监督的多任务学习器： 无监督预训练就是你所需要的全部？！
GPT3：语言模型是少样本学习器： 无监督预训练加上少量*示例就是你所需要的全部。（*从对话式问答中的5个示例到Winogrande、PhysicalQA和TriviaQA中的50个示例）
神经语言模型的缩放法则： 在较少数据上训练更大模型*是你所需要的。（*10倍的计算应用于5.5倍大的模型和1.8倍多的标记）
Chinchilla：训练计算最优的大型语言模型： 在更多数据上训练更小的模型*是你所需要的。（*10倍的计算应用于3.2倍大的模型和3.2倍多的标记）
LLaMA：开放高效的基础语言模型： 在公开数据上长时间训练的更小模型就是你所需要的全部
InstructGPT：通过人类反馈训练语言模型遵循指令： 40名标注员就是你所需要的*（*还需要有监督微调、奖励建模和PPO）
LoRA：大型语言模型的低秩适应： 一个秩就是你所需要的全部
QLoRA：量化LLM的高效微调： 4位就是你所需要的*（*还需要双重量化和分页优化器）
DPR：用于开放域问答的密集段落检索： 密集嵌入就是你所需要的*（*还需要高精度检索）
RAG：用于知识密集型NLP任务的检索增强生成： 半参数化模型*就是你所需要的全部（*密集向量检索作为非参数化组件；预训练LLM作为参数化组件）
RETRO：通过从万亿标记中检索来改进语言模型： 基于输入块的检索和分块交叉注意力就是你所需要的全部
通过少样本提示进行开放域问答的互联网增强语言模型： 用Google搜索作为检索就是你所需要的全部
HyDE：无需相关性标签的精确零样本密集检索： LLM生成的假设性文档就是你所需要的全部
FlashAttention：具有IO感知的快速且内存高效的精确注意力： SRAM中的for循环就是你所需要的全部
ALiBi；短训练长测试：具有线性偏差的注意力实现输入长度外推： 查询-键点积的恒定偏差就是你所需要的*（*还需要超参数m和缓存的Q、K、V表示）
Codex：评估在代码上训练的大型语言模型： 在代码上微调就是你所需要的全部
层归一化： 每层一致的均值和方差就是你所需要的全部
Transformer架构中的层归一化： 前置层归一化，而不是后置层归一化，就是你所需要的全部
PPO：近端策略优化算法： 裁剪你的代理函数就是你所需要的全部
WizardCoder：用Evol-Instruct增强代码大型语言模型： 要求模型使问题变得更难就是你所需要的*（*但他们从哪里获得这些更难问题的回答呢？！）
Llama 2：开放基础和微调对话模型： 迭代微调、PPO、拒绝采样和幽灵注意力就是你所需要的*（*还需要27,540个SFT注释和超过100万个二元比较偏好数据）
RWKV：为Transformer时代重新发明RNN： 通过RNN在推理过程中进行线性注意力就是你所需要的
RLAIF；宪法AI：来自AI反馈的无害性： 自然语言宪法*和模型对无害性的反馈就是你所需要的全部（*16种不同的无害性原则变体）
极其庞大的神经网络：稀疏门控专家混合层： softmax中的噪声和专家正则化就是你所需要的全部
CLIP：从自然语言监督中学习可迁移的视觉模型： *文本和图像嵌入之间的投影层就是你所需要的全部（*还需要4亿对图像-文本对）
ViT；一张图像价值16x16个词：用于大规模图像识别的Transformer： 展平的2D图像块就是你所需要的全部
生成式代理：人类行为的交互模拟： 反思、记忆和检索就是你所需要的全部
通过域外微调引导幻觉检测： 开源、允许使用的数据就是你所需要的
DPO；直接偏好优化：你的语言模型秘密是一个奖励模型： 单独的奖励模型并不是你所需要的
一致性模型： 映射到扩散如何向图像添加高斯噪声就是你所需要的全部
LCM；潜在一致性模型：用少步推理合成高分辨率图像： 潜在空间中的一致性建模就是你所需要的*（*还需要一个用于蒸馏的扩散模型）
LCM-LoRA：通用的稳定扩散加速模块： 组合LoRA就是你所需要的全部
注释链：增强检索增强语言模型的鲁棒性： 要求LLM反思检索到的文档就是你所需要的全部
**大语言模型的涌现能力：**痛苦教训就是你所需要的全部
**Q-Transformer：通过自回归Q函数实现可扩展的离线强化学习：**贝尔曼方程和回放缓冲区就是你所需要的全部
**Llama Guard：基于LLM的人机对话输入输出保护：**分类指南和多项选择响应就是你所需要的全部
**REST^EM；超越人类数据：用语言模型扩展自训练问题解决：**合成数据和奖励函数就是你所需要的全部
**专家混合模型解释：**MOE是一种将观察结果路由到块内子网络的架构选择。这允许我们通过引入更多专家来扩大参数数量，从而提高网络能力。然而，这也带来了新的挑战，如更高的参数数量导致的推理难度、训练不稳定性以及跨设备推理时专家的配置问题。
自我指导：通过自生成指令对齐语言模型
**Pythia：一套用于分析大型语言模型训练和扩展的工具：**一系列开源LLM，具有完全可复现的数据集和检查点，用于LLM研究。包括记忆化、数据去重和数据顺序以及性别偏见消除等方面的新颖研究（包括负面结果）。
**自我奖励语言模型：**无需从人类偏好训练奖励模型，LLM可以在训练过程中提供自己的奖励（即无需从GPT4蒸馏）。在我们方法的三次迭代中对Llama 2 70B进行微调，产生的模型在AlpacaEval 2.0排行榜上超越了许多现有系统，包括Claude 2、Gemini Pro和GPT-4 0613。
**构建你自己的产品协助工具 - 挑战、机遇和需求：**提示工程LLM并非你所需要的全部。
**套娃表示学习：**跨$2^n$维嵌入的聚合损失就是你所需要的全部。
**走向高效的生成式大型语言模型服务：从算法到系统的调查：**更大的GPU并非你所需要的全部。
**如何生成和使用合成数据进行微调：**合成数据几乎就是你所需要的全部。
**Whisper：通过大规模弱监督实现稳健的语音识别：**680k小时的音频和作为序列的多任务公式就是你所需要的全部。
**利用大型语言模型进行自然语言生成评估：一项调查：**一篇关于模型和任务评估技术的综述论文。包括使用Auto-J相关性而不是AlpacaEval，这是我们喜欢的方法。

llm-paper-notes

llm论文笔记

编辑推荐精选

扣子-AI办公

堆友

码上飞

Vora

Refly.AI

酷表ChatExcel

TRAE编程

AIWritePaper论文写作

博思AIPPT

潮际好麦

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

码上飞

商汤小浣熊

讯飞绘文

讯飞绘镜

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号