Deita: 数据高效指令微调技术助力大语言模型对齐

RayRay
Deita指令调优数据选择语言模型开源项目Github

Deita: 用更少的数据实现更好的大语言模型对齐

在人工智能和自然语言处理领域,大语言模型(Large Language Models, LLMs)的发展日新月异。然而,如何高效地将这些强大的模型与特定任务和用户偏好对齐,一直是一个重要而富有挑战性的问题。近日,香港科技大学自然语言处理实验室推出的Deita项目为这个问题提供了一个创新的解决方案。

Deita项目简介

Deita,全称为"Data-Efficient Instruction Tuning for Alignment",即"用于对齐的数据高效指令微调"。这个开源项目旨在通过自动数据选择技术,大幅提高大语言模型指令微调的效率。Deita的核心理念是:通过精心设计的数据选择策略,只需要少量但高质量的数据,就能实现与使用大量数据相当甚至更好的模型对齐效果。

Deita项目logo

Deita的主要组成部分

Deita项目包含三个主要部分:

  1. 开源工具包: 用于自动化指令微调数据选择的工具集。

  2. Deita数据集: 一系列极其轻量级但高质量的对齐数据集。目前已发布6K和10K大小的数据集。

  3. Deita模型: 使用自动选择的少量数据训练得到的高性能模型。这些模型使用的训练数据量比其他同级别模型少10倍以上,但性能却不相上下。

Deita的技术创新

Deita项目的核心创新在于其数据选择策略。研究团队从三个维度来衡量和选择数据:

  1. 复杂度(Complexity): 评估数据样本的难度和复杂程度。
  2. 质量(Quality): 衡量数据样本的整体质量和有用性。
  3. 多样性(Diversity): 确保选择的数据集具有广泛的覆盖面和多样性。

基于这三个维度,Deita开发了一套自动化的数据评分和选择流程。通过这种方法,可以从大量原始数据中筛选出最具价值的少量样本用于模型训练。

Deita的惊人性能

Deita的实验结果令人瞩目。以下是一些关键性能指标:

  • DEITA-7B-v1.0模型仅使用6K的SFT(监督微调)数据和10K的DPO(直接偏好优化)数据,就在MT-Bench测试中达到了7.55的得分,在AlpacaEval测试中达到了90.06%的得分。这一性能与使用数百千数据训练的顶级开源模型相当。

  • 在OpenLLM基准测试中,DEITA-7B-v1.0模型的平均得分为69.86,超过了许多使用更多数据训练的模型。

这些结果充分证明了Deita方法的有效性,它能够以极少的数据量实现卓越的模型性能。

Deita性能对比图

Deita的应用价值

Deita项目的意义不仅限于学术研究,它在实际应用中也具有重要价值:

  1. 降低计算成本: 通过减少训练数据量,可以显著降低模型训练的计算资源需求。

  2. 提高训练效率: 使用高质量的小规模数据集,可以加快模型训练速度。

  3. 改善模型质量: 精心选择的数据可以帮助模型更好地学习关键知识,避免无关信息的干扰。

  4. 促进个性化和定制: 对于特定领域或任务,可以更容易地收集和筛选高质量数据,从而快速实现模型的定制化。

Deita的开源资源

为了推动相关研究和应用的发展,Deita项目开源了大量资源,包括:

  • 多个版本的Deita数据集
  • 数据复杂度和质量评分器
  • 基于不同基础模型的Deita模型检查点

这些资源都可以在Hugging Face上找到。研究人员和开发者可以直接使用这些资源来复现Deita的结果,或者将其应用到自己的项目中。

如何使用Deita

Deita项目提供了详细的使用说明和示例代码。以下是使用Deita的基本步骤:

  1. 安装Deita:
git clone https://github.com/hkust-nlp/deita.git cd deita pip install -e .
  1. 数据样本评分:
from deita.selection.scorer import Llama_Scorer model_name_or_path = "hkust-nlp/deita-quality-scorer" scorer = Llama_Scorer(model_name_or_path) # 示例输入 input_text = "word to describe UI with helpful tooltips" output_text = "User-friendly or intuitive UI" quality_score = scorer.infer_quality(input_text, output_text) print(quality_score) # 输出: 2.0230105920381902
  1. 使用Deita管道进行数据选择和处理:
from deita.pipeline import Pipeline pipeline = Pipeline("score_pipeline", data_path = args.data_path, scorer = args.scorer, scorer_name_or_path = args.scorer_name_or_path, is_vllm = args.is_vllm, score_type = args.score_type, output_path = args.output_path) pipeline.run()

Deita的未来展望

Deita项目目前仍在积极开发中,研究团队计划在未来推出更多功能和改进:

  • 发布更高效的数据选择管道实现
  • 开发更多自动化数据选择策略
  • 支持命令行界面(CLI)
  • 提供在线演示系统

这些计划将进一步提升Deita的实用性和易用性,使其能够适应更广泛的应用场景。

结语

Deita项目为大语言模型的指令微调和对齐问题提供了一个全新的视角。通过智能的数据选择策略,Deita证明了"少即是多"的道理在AI领域同样适用。这种方法不仅可以大幅降低模型训练的资源需求,还能保持甚至提升模型性能。随着Deita项目的不断发展和完善,我们有理由期待它将在大语言模型的研究和应用中发挥越来越重要的作用,推动AI技术向更高效、更智能的方向发展。

对于希望深入了解Deita项目的读者,可以访问其GitHub仓库获取更多详细信息和最新进展。同时,该项目的相关论文《What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning》也已被ICLR2024接收,感兴趣的读者可以阅读全文以获取更多技术细节。

Deita项目的成功再次证明,在人工智能领域,创新的思路和方法往往能带来突破性的进展。我们期待看到更多像Deita这样的创新项目,推动大语言模型技术不断向前发展,为人类社会带来更多智能化的解决方案。

编辑推荐精选

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

nano-banana纳米香蕉中文站

nano-banana纳米香蕉中文站

国内直接访问,限时3折

输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动

扣子-AI办公

扣子-AI办公

职场AI,就用扣子

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

堆友

堆友

多风格AI绘画神器

堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

图像生成AI工具AI反应堆AI工具箱AI绘画GOAI艺术字堆友相机AI图像热门
码上飞

码上飞

零代码AI应用开发平台

零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

下拉加载更多