five

hkust-nlp/deita-10k-v0

收藏
Hugging Face2023-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hkust-nlp/deita-10k-v0
下载链接
链接失效反馈
官方服务:
资源简介:
Deita 10K V0数据集是一个开源项目,旨在为大语言模型(LLMs)的指令调优提供自动数据选择。该数据集包含10k条轻量级、高质量的对齐SFT数据,主要从ShareGPT、UltraChat和WizardLM数据集中自动选择。
提供机构:
hkust-nlp
原始信息汇总

数据集卡片 for Deita 10K V0

数据集概述

Deita 是一个开源项目,旨在促进大型语言模型(LLMs)中指令调优的自动数据选择。该数据集包含 10k 的高质量对齐 SFT 数据,主要从以下数据集中自动选择:

  • ShareGPT (Apache 2.0 许可,未找到官方仓库):使用 58 K ShareGPT 数据集进行选择。
  • UltraChat (MIT 许可):从 105 K UltraChat 数据集中采样进行选择。
  • WizardLM:使用 Alpaca 和 ShareGPT 的演化数据,混合 143 K 数据进行选择。

性能

模型 对齐方式 数据规模 MT-Bench AlpacaEval(%) OpenLLM (Avg.)
基于 LLaMA-1-13B 的开源模型
LIMA SFT 1K SFT 4.29 41.98 59.82
WizardLM-13B SFT 70K SFT 6.35 75.31 58.96
Vicuna-13B-v1.3 SFT 125K SFT 6.39 82.11 60.01
Random SFT 10K SFT 6.03 71.52 60.14
DEITA-LLaMA1-13B-v1.0-sft SFT 10K SFT 6.60 78.01 64.27
基于 LLaMA-2-13B 的开源模型
Tulu-2-13B SFT 326K SFT 6.70 78.90 --
Tulu-2-13B+DPO SFT + DPO 326K SFT + 60K DPO 7.00 89.50 --
LLaMA2-13B-Chat SFT + PPO -- 6.65 81.09 --
WizardLM-13B-v1.2 SFT >70K SFT 7.09 89.17 --
Vicuna-13B-v1.5 SFT 125K SFT 6.57 78.80 61.63
Random SFT 10K SFT 5.78 65.19 61.32
DEITA-LLaMA2-13B-v1.0-sft SFT 10K SFT 6.79 81.09 62.71
基于 Mistral-7B 的开源模型
Mistral-7B-Instruct-v0.1 -- -- 6.84 69.65 60.45
Zephyr-7B-sft SFT 200K SFT 5.32 75.12 60.93
$ ext{Zephyr-7B-}eta$ SFT + DPO 200K SFT + 60K DPO 7.34 90.60 66.36
OpenChat-3.5 C-RLFT >> 70K C-RLFT 7.81 88.51 --
Starling-7B C-RLFT + APA >>70K C-RLFT + 183K APA 8.09 91.99 --
Random SFT 10K SFT 5.89 56.90 61.72
DEITA-7B-v1.0-sft (6K) SFT 6K SFT 7.22 80.78 64.94
DEITA-7B-v1.0-sft (10K) SFT 10K SFT 7.32 81.67 64.00
DEITA-7B-v1.0 SFT + DPO 6K SFT + 10K DPO 7.55 90.06 69.86

引用

如果您发现本项目的内容对您有帮助,请按以下方式引用我们的论文:

@misc{liu2023what, title={What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning}, author={Wei Liu and Weihao Zeng and Keqing He and Yong Jiang and Junxian He}, year={2023}, eprint={2312.15685}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作