hkust-nlp/deita-6k-v0

Name: hkust-nlp/deita-6k-v0
Creator: hkust-nlp
Published: 2023-12-31 02:52:08
License: 暂无描述

Hugging Face2023-12-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hkust-nlp/deita-6k-v0

下载链接

链接失效反馈

官方服务：

资源简介：

Deita 6K V0数据集是一个开源项目，旨在为大语言模型（LLMs）的指令调优提供自动数据选择。该数据集包含6k条轻量级、高质量的对齐SFT数据，这些数据主要从ShareGPT、UltraChat和WizardLM等数据集中自动选择。

The Deita 6K V0 dataset is an open-source project dedicated to providing automatic data selection for instruction tuning of Large Language Models (LLMs). It contains 6,000 lightweight, high-quality aligned supervised fine-tuning (SFT) samples, which are mainly automatically selected from datasets such as ShareGPT, UltraChat and WizardLM.

提供机构：

hkust-nlp

原始信息汇总

数据集概述

基本信息

许可证: MIT
任务类别: 对话
语言: 英语
数据量: 1K<n<10K

数据集描述

名称: Deita 6K V0
设计目的: 用于大型语言模型（LLMs）中的指令调优的自动数据选择
数据来源:
- ShareGPT (Apache 2.0)
- UltraChat (MIT)
- WizardLM
数据类型: 轻量级、高质量的对齐SFT数据
数据量: 6K

性能评估

模型性能:
- 基于LLaMA-1-13B的开源模型:
  - DEITA-LLaMA1-13B-v1.0-sft: MT-Bench 6.60, AlpacaEval 78.01%, OpenLLM 64.27
- 基于LLaMA-2-13B的开源模型:
  - DEITA-LLaMA2-13B-v1.0-sft: MT-Bench 6.79, AlpacaEval 81.09%, OpenLLM 62.71
- 基于Mistral-7B的开源模型:
  - DEITA-7B-v1.0-sft (6K): MT-Bench 7.22, AlpacaEval 80.78%, OpenLLM 64.94
  - DEITA-7B-v1.0-sft (10K): MT-Bench 7.32, AlpacaEval 81.67%, OpenLLM 64.00
  - DEITA-7B-v1.0: MT-Bench 7.55, AlpacaEval 90.06%, OpenLLM 69.86

引用

@misc{liu2023what, title={What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning}, author={Wei Liu and Weihao Zeng and Keqing He and Yong Jiang and Junxian He}, year={2023}, eprint={2312.15685}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在大型语言模型指令微调领域，数据质量对模型性能具有决定性影响。Deita-6K-v0数据集通过自动数据选择机制构建，从ShareGPT、UltraChat和WizardLM等开源对话数据集中，依据预设的质量评估标准，系统性地筛选出约六千条轻量且高质量的指令对齐样本。该构建过程融合了多样性采样与质量过滤策略，旨在以有限数据规模实现最优的模型对齐效果，为高效数据利用提供了实证基础。

特点

该数据集的核心特征在于其轻量化与高质量的双重属性。相较于传统大规模指令数据集，Deita-6K-v0通过精密的自动选择算法，萃取了源数据中最具信息量与对齐价值的样本，从而在极小数据规模下保持了广泛的任务覆盖与对话深度。其数据样本普遍具备清晰的指令结构、连贯的多轮对话逻辑以及丰富的话题分布，这些特质共同支撑了其在指令微调任务中表现出的卓越数据效率。

使用方法

该数据集专为大型语言模型的监督式指令微调而设计。研究人员可直接加载该数据集，将其作为训练数据输入模型，以提升模型遵循指令和进行对话的能力。鉴于其精选特性，该数据集尤其适合用于研究数据效率、探索小规模高质量数据对模型性能的影响，或作为基线数据与其他数据集进行对比实验。使用时可遵循标准的文本生成模型训练流程，无需额外的数据预处理步骤。

背景与挑战

背景概述

随着大型语言模型在指令微调领域的快速发展，数据质量成为影响模型性能的关键因素。香港科技大学自然语言处理实验室于2023年发布了Deita-6K-v0数据集，旨在通过自动数据选择机制，从海量对话数据中筛选出轻量级、高质量的指令对齐数据。该研究聚焦于探索指令微调中优质数据的本质特征，通过系统化实验揭示了数据复杂性、多样性与模型泛化能力之间的内在关联，为高效构建高性能对齐模型提供了新的方法论支撑。

当前挑战

在指令微调领域，如何从海量异构数据中自动识别并提取高质量样本，是提升模型对齐效率的核心挑战。Deita数据集构建过程中面临多重技术难题：首先需要设计跨数据源的统一质量评估指标，以克服原始数据在指令复杂度、响应一致性和知识准确性方面的差异；其次需平衡数据规模与质量之间的权衡，在有限计算资源下实现最优选择策略；最后还需验证自动选择机制在不同模型架构与训练范式下的泛化能力，确保方法论的可迁移性。

常用场景

经典使用场景

在大型语言模型指令微调领域，Deita-6K-v0数据集的核心应用场景在于为模型提供轻量级、高质量的监督微调数据。该数据集通过自动数据选择机制，从ShareGPT、UltraChat和WizardLM等海量对话数据中筛选出最具代表性的样本，旨在以极小的数据规模实现与大规模数据集相媲美的模型性能。这一过程不仅优化了数据利用效率，还为研究者在资源受限环境下进行高效的模型对齐提供了实践基础。

解决学术问题

该数据集主要解决了指令微调中数据质量与数量之间的平衡问题。传统方法往往依赖海量数据，但其中包含大量噪声或低效样本，导致训练成本高昂且效果受限。Deita-6K-v0通过系统研究自动数据选择准则，揭示了指令复杂性、响应多样性和实例间差异性等关键特征对模型性能的影响，为构建高效微调数据集提供了理论依据。这一工作推动了数据为中心的人工智能研究范式，降低了模型对齐的学术门槛。

衍生相关工作

基于该数据集提出的自动数据选择框架，后续研究衍生出多类经典工作。例如，扩展至多模态指令微调的数据筛选，或结合强化学习进一步优化选择策略。部分工作将Deita准则应用于代码生成、数学推理等垂直领域，验证了其泛化能力。同时，开源社区以此为基础构建了更庞大的高质量数据集合，形成了以数据质量为核心的模型优化生态链，持续推动高效对齐技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集