
Meta开发的多语言大规模语言模型 适用于对话和检索任务
Llama-3.2-1B-Instruct是Meta开发的新一代多语言大规模语言模型。该模型支持8种语言,包括英语、德语和法语等,有1B和3B两种参数规模。模型采用优化的Transformer架构,使用高达9T的token训练,支持128k上下文长度。它在行业基准测试中表现优异,特别擅长对话、知识检索和摘要任务。Llama-3.2-1B-Instruct适用于构建智能助手、写作辅助等多种商业和研究应用。
Llama-3.2-1B-Instruct是Meta公司开发的多语言大型语言模型(LLM)系列中的一员。这个模型是Llama 3.2系列中参数量为1B(准确来说是1.23B)的指令微调版本。它是一个文本输入/文本输出的生成式模型,专门针对多语言对话场景进行了优化,包括代理检索和摘要任务。
架构:Llama-3.2-1B-Instruct采用优化的Transformer架构,是一个自回归语言模型。
训练方法:该模型使用了监督式微调(SFT)和基于人类反馈的强化学习(RLHF)技术,以提高模型的有用性和安全性。
训练数据:模型使用了新的公开在线数据混合集进行训练,总token数达到9万亿。
上下文长度:该模型支持128k的上下文长度,远超许多同类模型。
多语言支持:官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语8种语言,但实际训练涵盖了更多语言。
特殊技术:采用了分组查询注意力(GQA)技术,提高了推理的可扩展性。
知识截止:模型的知识截止到2023年12月。
Llama-3.2-1B-Instruct主要面向商业和研究用途,适用于多语言环境。它特别适合以下场景:
此外,该模型还可以通过微调适应各种自然语言生成任务。
用户可以通过两种方式使用Llama-3.2-1B-Instruct模型:
使用Transformers库:
使用原始llama代码库:
模型使用受Llama 3.2社区许可证管理,这是一个自定义的商业许可协议。
使用时需遵守可接受使用政策,避免用于非法或有害目的。
虽然官方支持8种语言,但开发者可以在遵守许可和使用政策的前提下,对模型进行微调以支持更多语言。
模型还有量化版本,适用于计算资源有限的设备端场景。
Meta公司欢迎用户提供反馈,以便持续改进模型的能力和安全性。