Daring-Anteater

Name: Daring-Anteater
Creator: NVIDIA
Published: 2024-06-18 05:17:06
License: 暂无描述

Hugging Face2024-06-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/nvidia/Daring-Anteater

下载链接

链接失效反馈

官方服务：

资源简介：

Daring-Anteater数据集是一个综合性的指令调优数据集，涵盖广泛的任務和场景。大部分数据集是通过NVIDIA的专有模型和Mixtral-8x7B-Instruct-v0.1合成的，其余样本来自FinQA、wikitablequestions和Open-Platypus的商业友好子集。该数据集用于HelpSteer2论文，旨在通过开放源代码促进可重复性。

提供机构：

NVIDIA

创建时间：

2024-06-04

原始信息汇总

数据集概述

数据集信息

名称: Daring-Anteater
任务类别: 文本生成
语言: 英语
许可证: CC-BY-4.0

数据集组成

数据来源:
- 主要由NVIDIA专有模型和Mixtral-8x7B-Instruct-v0.1合成生成。
- 部分样本来自FinQA、wikitablequestions和Open-Platypus的商业友好子集。
数据集结构:
- 包含四列：conversations（用户和助手对话格式）、mask（不计算损失的轮次，默认为“User”）、system（系统提示）、dataset（数据源）。

数据来源详情

数据源	样本数量	许可证
synthetic_conv	82450	CC-BY-4.0
synthetic_roleplay	2996	CC-BY-4.0
synthetic_math	3000	CC-BY-4.0
synthetic_precise_instruction_following	1500	CC-BY-4.0
synthetic_json_format_following	1499	CC-BY-4.0
synthetic_complex_instruction	1500	CC-BY-4.0
open_platypus_commercial	6000	CC-BY-4.0/Apache-2.0/MIT
FinQA	300	CC-BY-4.0
wikitablequestions	287	CC-BY-4.0

许可证

合成子集在CC-BY-4.0许可证下开放源代码。
其他子集也采用宽松许可证，只要遵循许可证条款，数据集可用于商业目的。

引用

bibtex @misc{wang2024helpsteer2, title={HelpSteer2: Open-source dataset for training top-performing reward models}, author={Zhilin Wang and Yi Dong and Olivier Delalleau and Jiaqi Zeng and Gerald Shen and Daniel Egert and Jimmy J. Zhang and Makesh Narsimhan Sreedhar and Oleksii Kuchaiev}, year={2024}, eprint={2406.08673}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

Daring-Anteater数据集的构建采用了多元化的数据来源与合成技术。其主要部分通过NVIDIA专有模型和Mixtral-8x7B-Instruct-v0.1模型生成，涵盖了多种任务和场景。此外，数据集还整合了来自FinQA、wikitablequestions以及Open-Platypus的商业友好子集，确保了数据的多样性和广泛性。这种混合构建方法不仅提升了数据集的覆盖范围，还增强了其在指令调优任务中的实用性。

特点

Daring-Anteater数据集以其丰富的任务类型和高质量的数据样本著称。数据集包含四列数据：对话内容、掩码、系统提示和数据来源，结构清晰且易于解析。其数据来源广泛，包括合成对话、角色扮演、数学问题、精确指令遵循等多种类型，确保了数据集的多样性和复杂性。此外，所有数据均采用宽松的许可证，如CC-BY-4.0，使其适用于商业用途。

使用方法

Daring-Anteater数据集主要用于指令调优任务，特别适用于训练和优化监督微调（SFT）模型。用户可以通过解析数据集中的对话内容和系统提示，构建适合特定任务的训练样本。数据集的掩码列提供了损失计算的灵活性，用户可以根据需要调整训练过程中的损失计算方式。此外，数据集的开源性质使其易于复现和扩展，研究人员可以在此基础上进行进一步的模型优化和实验。

背景与挑战

背景概述

Daring-Anteater数据集是一个专为指令调优设计的综合性数据集，涵盖了广泛的任务和场景。该数据集主要由NVIDIA的专有模型和Mixtral-8x7B-Instruct-v0.1生成，同时整合了来自FinQA、wikitablequestions以及Open-Platypus的商业友好子集。该数据集在HelpSteer2论文中被用于训练一个高效的监督微调模型，进一步推动了偏好调优的研究。通过开源这一数据集，研究团队旨在促进相关领域的可重复性和技术进步。

当前挑战

Daring-Anteater数据集在构建和应用过程中面临多重挑战。首先，指令调优任务本身具有高度复杂性，要求模型能够准确理解和执行多样化的指令，这对数据质量和多样性提出了极高要求。其次，数据集的合成过程依赖于高质量的基础模型，如何确保生成数据的准确性和多样性是一个关键问题。此外，整合来自不同来源的数据时，如何保持数据的一致性和兼容性也是构建过程中的一大挑战。最后，尽管数据集已开源，但其商业应用仍需严格遵守各子集的许可协议，这对数据的使用和分发提出了额外的合规性要求。

常用场景

经典使用场景

Daring-Anteater数据集在指令调优领域具有广泛的应用，尤其是在生成式任务中表现突出。该数据集通过合成数据和真实数据的结合，提供了丰富的对话场景和任务类型，能够有效支持模型在复杂指令遵循、数学推理、角色扮演等任务上的训练。其多源数据的融合使得模型能够在多样化的语境中学习，提升泛化能力。

衍生相关工作

Daring-Anteater数据集的开源推动了多项经典工作的诞生，尤其是在指令调优和偏好模型训练领域。例如，基于该数据集训练的HelpSteer2模型在偏好调优任务中表现出色，成为该领域的标杆之一。此外，该数据集还被用于多项研究，探索生成式模型在复杂任务中的潜力，进一步拓展了自然语言处理的应用边界。

数据集最近研究