nvidia/Daring-Anteater

Name: nvidia/Daring-Anteater
Creator: nvidia
Published: 2024-06-17 21:17:06
License: 暂无描述

Hugging Face2024-06-17 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/nvidia/Daring-Anteater

下载链接

链接失效反馈

官方服务：

资源简介：

Daring-Anteater是一个用于指令调优的综合数据集，涵盖了多种任务和场景。数据集主要由NVIDIA专有模型和Mixtral-8x7B-Instruct-v0.1生成，部分数据来源于FinQA、wikitablequestions和Open-Platypus的商业友好子集。数据集包含四列：conversations（用户和助手的对话轮次）、mask（不计算损失的轮次，默认为User）、system（系统提示）和dataset（数据来源）。数据混合的详细信息包括数据来源、样本数量和许可证。数据集的开源许可证为CC-BY-4.0，适用于商业用途。

提供机构：

nvidia

原始信息汇总

数据集概述

数据集描述

Daring-Anteater 是一个用于指令调优的综合数据集，涵盖了广泛的任务和场景。该数据集主要通过 NVIDIA 专有模型和 Mixtral-8x7B-Instruct-v0.1 合成生成，其余样本来自 FinQA、wikitablequestions 和商业友好的 Open-Platypus 子集。

该数据集用于 HelpSteer2 论文，产生了一个用于进一步偏好调优的坚实 SFT 模型。我们开源此数据集以促进可重复性。

数据集结构

数据集包含四列：

conversations: 用户和助手对话的格式
mask: 不计算损失的轮次（默认为 "User"）
system: 系统提示
dataset: 数据源

数据来源详情

数据源	样本数量	许可
synthetic_conv	82450	CC-BY-4.0
synthetic_roleplay	2996	CC-BY-4.0
synthetic_math	3000	CC-BY-4.0
synthetic_precise_instruction_following	1500	CC-BY-4.0
synthetic_json_format_following	1499	CC-BY-4.0
synthetic_complex_instruction	1500	CC-BY-4.0
open_platypus_commercial	6000	CC-BY-4.0/Apache-2.0/MIT
FinQA	300	CC-BY-4.0
wikitablequestions	287	CC-BY-4.0

许可

我们开源了合成子集，并采用 CC-BY-4.0 许可。所有其他子集也采用宽松许可，只要遵守许可条款，数据集可用于商业目的。

引用

如果您发现此数据集有用，请引用以下作品： bibtex @misc{wang2024helpsteer2, title={HelpSteer2: Open-source dataset for training top-performing reward models}, author={Zhilin Wang and Yi Dong and Olivier Delalleau and Jiaqi Zeng and Gerald Shen and Daniel Egert and Jimmy J. Zhang and Makesh Narsimhan Sreedhar and Oleksii Kuchaiev}, year={2024}, eprint={2406.08673}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集