Daring-Anteater
收藏Hugging Face2024-06-18 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/nvidia/Daring-Anteater
下载链接
链接失效反馈官方服务:
资源简介:
Daring-Anteater数据集是一个综合性的指令调优数据集,涵盖广泛的任務和场景。大部分数据集是通过NVIDIA的专有模型和Mixtral-8x7B-Instruct-v0.1合成的,其余样本来自FinQA、wikitablequestions和Open-Platypus的商业友好子集。该数据集用于HelpSteer2论文,旨在通过开放源代码促进可重复性。
提供机构:
NVIDIA
创建时间:
2024-06-04
原始信息汇总
数据集概述
数据集信息
- 名称: Daring-Anteater
- 任务类别: 文本生成
- 语言: 英语
- 许可证: CC-BY-4.0
数据集组成
- 数据来源:
- 主要由NVIDIA专有模型和Mixtral-8x7B-Instruct-v0.1合成生成。
- 部分样本来自FinQA、wikitablequestions和Open-Platypus的商业友好子集。
- 数据集结构:
- 包含四列:conversations(用户和助手对话格式)、mask(不计算损失的轮次,默认为“User”)、system(系统提示)、dataset(数据源)。
数据来源详情
| 数据源 | 样本数量 | 许可证 |
|---|---|---|
| synthetic_conv | 82450 | CC-BY-4.0 |
| synthetic_roleplay | 2996 | CC-BY-4.0 |
| synthetic_math | 3000 | CC-BY-4.0 |
| synthetic_precise_instruction_following | 1500 | CC-BY-4.0 |
| synthetic_json_format_following | 1499 | CC-BY-4.0 |
| synthetic_complex_instruction | 1500 | CC-BY-4.0 |
| open_platypus_commercial | 6000 | CC-BY-4.0/Apache-2.0/MIT |
| FinQA | 300 | CC-BY-4.0 |
| wikitablequestions | 287 | CC-BY-4.0 |
许可证
- 合成子集在CC-BY-4.0许可证下开放源代码。
- 其他子集也采用宽松许可证,只要遵循许可证条款,数据集可用于商业目的。
引用
bibtex @misc{wang2024helpsteer2, title={HelpSteer2: Open-source dataset for training top-performing reward models}, author={Zhilin Wang and Yi Dong and Olivier Delalleau and Jiaqi Zeng and Gerald Shen and Daniel Egert and Jimmy J. Zhang and Makesh Narsimhan Sreedhar and Oleksii Kuchaiev}, year={2024}, eprint={2406.08673}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
Daring-Anteater数据集的构建采用了多元化的数据来源与合成技术。其主要部分通过NVIDIA专有模型和Mixtral-8x7B-Instruct-v0.1模型生成,涵盖了多种任务和场景。此外,数据集还整合了来自FinQA、wikitablequestions以及Open-Platypus的商业友好子集,确保了数据的多样性和广泛性。这种混合构建方法不仅提升了数据集的覆盖范围,还增强了其在指令调优任务中的实用性。
特点
Daring-Anteater数据集以其丰富的任务类型和高质量的数据样本著称。数据集包含四列数据:对话内容、掩码、系统提示和数据来源,结构清晰且易于解析。其数据来源广泛,包括合成对话、角色扮演、数学问题、精确指令遵循等多种类型,确保了数据集的多样性和复杂性。此外,所有数据均采用宽松的许可证,如CC-BY-4.0,使其适用于商业用途。
使用方法
Daring-Anteater数据集主要用于指令调优任务,特别适用于训练和优化监督微调(SFT)模型。用户可以通过解析数据集中的对话内容和系统提示,构建适合特定任务的训练样本。数据集的掩码列提供了损失计算的灵活性,用户可以根据需要调整训练过程中的损失计算方式。此外,数据集的开源性质使其易于复现和扩展,研究人员可以在此基础上进行进一步的模型优化和实验。
背景与挑战
背景概述
Daring-Anteater数据集是一个专为指令调优设计的综合性数据集,涵盖了广泛的任务和场景。该数据集主要由NVIDIA的专有模型和Mixtral-8x7B-Instruct-v0.1生成,同时整合了来自FinQA、wikitablequestions以及Open-Platypus的商业友好子集。该数据集在HelpSteer2论文中被用于训练一个高效的监督微调模型,进一步推动了偏好调优的研究。通过开源这一数据集,研究团队旨在促进相关领域的可重复性和技术进步。
当前挑战
Daring-Anteater数据集在构建和应用过程中面临多重挑战。首先,指令调优任务本身具有高度复杂性,要求模型能够准确理解和执行多样化的指令,这对数据质量和多样性提出了极高要求。其次,数据集的合成过程依赖于高质量的基础模型,如何确保生成数据的准确性和多样性是一个关键问题。此外,整合来自不同来源的数据时,如何保持数据的一致性和兼容性也是构建过程中的一大挑战。最后,尽管数据集已开源,但其商业应用仍需严格遵守各子集的许可协议,这对数据的使用和分发提出了额外的合规性要求。
常用场景
经典使用场景
Daring-Anteater数据集在指令调优领域具有广泛的应用,尤其是在生成式任务中表现突出。该数据集通过合成数据和真实数据的结合,提供了丰富的对话场景和任务类型,能够有效支持模型在复杂指令遵循、数学推理、角色扮演等任务上的训练。其多源数据的融合使得模型能够在多样化的语境中学习,提升泛化能力。
衍生相关工作
Daring-Anteater数据集的开源推动了多项经典工作的诞生,尤其是在指令调优和偏好模型训练领域。例如,基于该数据集训练的HelpSteer2模型在偏好调优任务中表现出色,成为该领域的标杆之一。此外,该数据集还被用于多项研究,探索生成式模型在复杂任务中的潜力,进一步拓展了自然语言处理的应用边界。
数据集最近研究
最新研究方向
在自然语言处理领域,Daring-Anteater数据集的最新研究方向主要集中在指令微调(instruction tuning)和偏好调整(preference tuning)上。该数据集通过合成生成和开源数据的结合,覆盖了广泛的对话场景和任务类型,特别是在复杂指令遵循和JSON格式生成等任务上表现出色。近期研究利用该数据集训练了HelpSteer2模型,显著提升了奖励模型的性能,为后续的偏好调整提供了坚实的基础。这一进展不仅推动了对话系统的智能化发展,也为开源社区提供了高质量的数据资源,促进了相关技术的可复现性和商业化应用。
以上内容由遇见数据集搜集并总结生成



