Deita: 数据高效指令微调技术助力大语言模型对齐

RayRay
Deita指令调优数据选择语言模型开源项目Github

Deita: 用更少的数据实现更好的大语言模型对齐

在人工智能和自然语言处理领域,大语言模型(Large Language Models, LLMs)的发展日新月异。然而,如何高效地将这些强大的模型与特定任务和用户偏好对齐,一直是一个重要而富有挑战性的问题。近日,香港科技大学自然语言处理实验室推出的Deita项目为这个问题提供了一个创新的解决方案。

Deita项目简介

Deita,全称为"Data-Efficient Instruction Tuning for Alignment",即"用于对齐的数据高效指令微调"。这个开源项目旨在通过自动数据选择技术,大幅提高大语言模型指令微调的效率。Deita的核心理念是:通过精心设计的数据选择策略,只需要少量但高质量的数据,就能实现与使用大量数据相当甚至更好的模型对齐效果。

Deita项目logo

Deita的主要组成部分

Deita项目包含三个主要部分:

  1. 开源工具包: 用于自动化指令微调数据选择的工具集。

  2. Deita数据集: 一系列极其轻量级但高质量的对齐数据集。目前已发布6K和10K大小的数据集。

  3. Deita模型: 使用自动选择的少量数据训练得到的高性能模型。这些模型使用的训练数据量比其他同级别模型少10倍以上,但性能却不相上下。

Deita的技术创新

Deita项目的核心创新在于其数据选择策略。研究团队从三个维度来衡量和选择数据:

  1. 复杂度(Complexity): 评估数据样本的难度和复杂程度。
  2. 质量(Quality): 衡量数据样本的整体质量和有用性。
  3. 多样性(Diversity): 确保选择的数据集具有广泛的覆盖面和多样性。

基于这三个维度,Deita开发了一套自动化的数据评分和选择流程。通过这种方法,可以从大量原始数据中筛选出最具价值的少量样本用于模型训练。

Deita的惊人性能

Deita的实验结果令人瞩目。以下是一些关键性能指标:

  • DEITA-7B-v1.0模型仅使用6K的SFT(监督微调)数据和10K的DPO(直接偏好优化)数据,就在MT-Bench测试中达到了7.55的得分,在AlpacaEval测试中达到了90.06%的得分。这一性能与使用数百千数据训练的顶级开源模型相当。

  • 在OpenLLM基准测试中,DEITA-7B-v1.0模型的平均得分为69.86,超过了许多使用更多数据训练的模型。

这些结果充分证明了Deita方法的有效性,它能够以极少的数据量实现卓越的模型性能。

Deita性能对比图

Deita的应用价值

Deita项目的意义不仅限于学术研究,它在实际应用中也具有重要价值:

  1. 降低计算成本: 通过减少训练数据量,可以显著降低模型训练的计算资源需求。

  2. 提高训练效率: 使用高质量的小规模数据集,可以加快模型训练速度。

  3. 改善模型质量: 精心选择的数据可以帮助模型更好地学习关键知识,避免无关信息的干扰。

  4. 促进个性化和定制: 对于特定领域或任务,可以更容易地收集和筛选高质量数据,从而快速实现模型的定制化。

Deita的开源资源

为了推动相关研究和应用的发展,Deita项目开源了大量资源,包括:

  • 多个版本的Deita数据集
  • 数据复杂度和质量评分器
  • 基于不同基础模型的Deita模型检查点

这些资源都可以在Hugging Face上找到。研究人员和开发者可以直接使用这些资源来复现Deita的结果,或者将其应用到自己的项目中。

如何使用Deita

Deita项目提供了详细的使用说明和示例代码。以下是使用Deita的基本步骤:

  1. 安装Deita:
git clone https://github.com/hkust-nlp/deita.git cd deita pip install -e .
  1. 数据样本评分:
from deita.selection.scorer import Llama_Scorer model_name_or_path = "hkust-nlp/deita-quality-scorer" scorer = Llama_Scorer(model_name_or_path) # 示例输入 input_text = "word to describe UI with helpful tooltips" output_text = "User-friendly or intuitive UI" quality_score = scorer.infer_quality(input_text, output_text) print(quality_score) # 输出: 2.0230105920381902
  1. 使用Deita管道进行数据选择和处理:
from deita.pipeline import Pipeline pipeline = Pipeline("score_pipeline", data_path = args.data_path, scorer = args.scorer, scorer_name_or_path = args.scorer_name_or_path, is_vllm = args.is_vllm, score_type = args.score_type, output_path = args.output_path) pipeline.run()

Deita的未来展望

Deita项目目前仍在积极开发中,研究团队计划在未来推出更多功能和改进:

  • 发布更高效的数据选择管道实现
  • 开发更多自动化数据选择策略
  • 支持命令行界面(CLI)
  • 提供在线演示系统

这些计划将进一步提升Deita的实用性和易用性,使其能够适应更广泛的应用场景。

结语

Deita项目为大语言模型的指令微调和对齐问题提供了一个全新的视角。通过智能的数据选择策略,Deita证明了"少即是多"的道理在AI领域同样适用。这种方法不仅可以大幅降低模型训练的资源需求,还能保持甚至提升模型性能。随着Deita项目的不断发展和完善,我们有理由期待它将在大语言模型的研究和应用中发挥越来越重要的作用,推动AI技术向更高效、更智能的方向发展。

对于希望深入了解Deita项目的读者,可以访问其GitHub仓库获取更多详细信息和最新进展。同时,该项目的相关论文《What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning》也已被ICLR2024接收,感兴趣的读者可以阅读全文以获取更多技术细节。

Deita项目的成功再次证明,在人工智能领域,创新的思路和方法往往能带来突破性的进展。我们期待看到更多像Deita这样的创新项目,推动大语言模型技术不断向前发展,为人类社会带来更多智能化的解决方案。

编辑推荐精选

博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

下拉加载更多