MagpieLM-DPO-Data-v0.1
收藏Hugging Face2024-09-21 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Magpie-Align/MagpieLM-DPO-Data-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Magpie团队生成,用于直接偏好优化。它结合了两个数据集:一半来自Magpie-Llama-3.1-Pro-DPO-100K-v0.1,另一半使用Magpie-Air-DPO-100K-v0.1的指令,并使用google/gemma-2-9b-it生成响应。响应通过RLHFlow/ArmoRM-Llama3-8B-v0.1进行RM评分标注,最高分的响应被标记为chosen,最低分的响应被标记为rejected。该数据集用于训练Magpie-Align/MagpieLM-4B-Chat-v0.1。
This dataset was developed by the Magpie team for Direct Preference Optimization (DPO). It comprises two equal-sized subsets: one subset is sourced from Magpie-Llama-3.1-Pro-DPO-100K-v0.1, while the other subset employs prompts from Magpie-Air-DPO-100K-v0.1 and generates corresponding responses using the google/gemma-2-9b-it model. The generated responses are annotated with reward scores via the RLHFlow/ArmoRM-Llama3-8B-v0.1 reward model (RM), where the response with the highest score is labeled as `chosen` and the one with the lowest score is labeled as `rejected`. This dataset is employed to train the Magpie-Align/MagpieLM-4B-Chat-v0.1 model.
创建时间:
2024-09-11
原始信息汇总
MagpieLM-DPO-Data-v0.1 数据集概述
数据集信息
- 特征:
uuid: 字符串类型instruction: 字符串类型chosen: 列表类型,包含content(字符串类型)和role(字符串类型)rejected: 列表类型,包含content(字符串类型)和role(字符串类型)
- 分割:
train: 包含 196,000 个样本,大小为 1,118,772,760 字节test: 包含 4,000 个样本,大小为 22,814,240 字节
- 下载大小: 616,500,602 字节
- 数据集大小: 1,141,587,000 字节
配置
- 默认配置:
train: 数据文件路径为data/train-*test: 数据文件路径为data/test-*
数据集详情
- 生成目的: 用于直接偏好优化(DPO)。
- 数据来源:
- 50% 数据来自 Magpie-Align/Magpie-Llama-3.1-Pro-DPO-100K-v0.1。
- 50% 数据使用 Magpie-Align/Magpie-Air-DPO-100K-v0.1 的指令,并使用 google/gemma-2-9b-it 生成响应,温度为 0.8,每个指令生成 5 次响应。使用 RLHFlow/ArmoRM-Llama3-8B-v0.1 进行 RM 评分,标记最高 RM 评分的响应为
chosen,最低 RM 评分的响应为rejected。
许可证
引用
- 如果使用该数据集,请引用相关论文:
-
Magpie 论文:
@article{xu2024magpie, title={Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing}, author={Zhangchen Xu and Fengqing Jiang and Luyao Niu and Yuntian Deng and Radha Poovendran and Yejin Choi and Bill Yuchen Lin}, year={2024}, eprint={2406.08464}, archivePrefix={arXiv}, primaryClass={cs.CL} }
-
ArmoRM 论文:
@article{wang2024interpretable, title={Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts}, author={Wang, Haoxiang and Xiong, Wei and Xie, Tengyang and Zhao, Han and Zhang, Tong}, journal={arXiv preprint arXiv:2406.12845}, year={2024} }
-
联系
- 如有问题,请联系:
- Zhangchen Xu [zxu9 at uw dot edu]
- Bill Yuchen Lin [yuchenlin1995 at gmail dot com]
搜集汇总
数据集介绍

构建方式
MagpieLM-DPO-Data-v0.1数据集的构建基于直接偏好优化(DPO)的需求,结合了两个主要数据源。其中一半数据来自Magpie-Llama-3.1-Pro-DPO-100K-v0.1,另一半则利用Magpie-Air-DPO-100K-v0.1中的指令,通过google/gemma-2-9b-it模型生成五次响应,并使用RLHFlow/ArmoRM-Llama3-8B-v0.1进行奖励模型评分,最终选择评分最高和最低的响应分别作为优选和拒绝响应。
特点
该数据集的特点在于其多样性和高质量标注。每个指令对应多个生成响应,并通过奖励模型进行精确评分,确保了数据的可靠性和实用性。此外,数据集涵盖了广泛的指令类型,适用于多种自然语言处理任务,尤其是偏好优化和指令调优。
使用方法
MagpieLM-DPO-Data-v0.1数据集主要用于训练和评估直接偏好优化模型。用户可以通过HuggingFace平台下载数据集,并利用其提供的训练和测试集进行模型训练。数据集的结构清晰,包含指令、优选响应和拒绝响应,便于用户直接应用于模型训练和性能评估。
背景与挑战
背景概述
MagpieLM-DPO-Data-v0.1数据集由Magpie团队于2024年发布,旨在为直接偏好优化(Direct Preference Optimization, DPO)提供高质量的训练数据。该数据集结合了两个子数据集:一部分来自Magpie-Llama-3.1-Pro-DPO-100K-v0.1,另一部分则基于Magpie-Air-DPO-100K-v0.1的指令生成,并通过Google的Gemma-2-9B模型生成响应。研究人员使用RLHFlow/ArmoRM-Llama3-8B-v0.1模型对生成的响应进行评分,选择最高分和最低分的响应分别作为优选和拒绝样本。该数据集的研究背景源于大语言模型(LLMs)在指令微调中的挑战,尤其是如何通过偏好数据提升模型的对齐能力。相关研究已在arXiv上发布,并得到了广泛关注。
当前挑战
MagpieLM-DPO-Data-v0.1数据集在构建过程中面临多重挑战。首先,生成高质量偏好数据需要对大量指令进行响应生成和评分,这一过程不仅计算资源密集,还需确保评分的客观性和一致性。其次,尽管使用了Gemma-2-9B等先进模型生成响应,但如何平衡模型生成多样性与响应质量仍是一个难题。此外,数据集的目标是解决大语言模型在指令对齐中的偏好优化问题,这要求数据能够准确反映人类偏好,避免模型在训练过程中产生偏差。最后,数据集的构建依赖于多个外部模型和工具,如何确保这些工具之间的兼容性和数据一致性也是技术上的重要挑战。
常用场景
经典使用场景
MagpieLM-DPO-Data-v0.1数据集主要用于直接偏好优化(Direct Preference Optimization, DPO)任务,特别是在大语言模型的指令微调过程中。通过提供大量的指令-响应对,该数据集帮助模型学习如何从多个可能的响应中选择最符合人类偏好的答案。这种优化方法在提升模型对话质量和用户满意度方面具有显著效果。
衍生相关工作
基于MagpieLM-DPO-Data-v0.1数据集,研究者们开发了一系列相关的工作,如Magpie-Align/MagpieLM-4B-Chat-v0.1模型。这些工作进一步验证了数据集在指令微调和偏好对齐方面的有效性。此外,相关研究还探讨了如何在不依赖强教师模型的情况下进行有效的指令微调,为未来的研究提供了新的方向。
数据集最近研究
最新研究方向
在自然语言处理领域,MagpieLM-DPO-Data-v0.1数据集的最新研究方向聚焦于直接偏好优化(Direct Preference Optimization, DPO)技术的应用与改进。该数据集通过结合来自Magpie-Llama-3.1-Pro-DPO-100K-v0.1和Magpie-Air-DPO-100K-v0.1的数据,并利用Gemma-2-9B模型生成响应,进一步通过ArmoRM-Llama3-8B-v0.1进行评分标注,旨在探索更高效的指令微调方法。研究表明,强模型并不总是指令微调的强教师,这一发现为模型训练策略提供了新的视角。该数据集的研究不仅推动了偏好优化技术的发展,还为大规模语言模型的训练与评估提供了重要参考。
以上内容由遇见数据集搜集并总结生成



