five

nvidia/Daring-Anteater

收藏
Hugging Face2024-06-17 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nvidia/Daring-Anteater
下载链接
链接失效反馈
官方服务:
资源简介:
Daring-Anteater是一个用于指令调优的综合数据集,涵盖了多种任务和场景。数据集主要由NVIDIA专有模型和Mixtral-8x7B-Instruct-v0.1生成,部分数据来源于FinQA、wikitablequestions和Open-Platypus的商业友好子集。数据集包含四列:conversations(用户和助手的对话轮次)、mask(不计算损失的轮次,默认为User)、system(系统提示)和dataset(数据来源)。数据混合的详细信息包括数据来源、样本数量和许可证。数据集的开源许可证为CC-BY-4.0,适用于商业用途。

Daring-Anteater是一个用于指令调优的综合数据集,涵盖了多种任务和场景。数据集主要由NVIDIA专有模型和Mixtral-8x7B-Instruct-v0.1生成,部分数据来源于FinQA、wikitablequestions和Open-Platypus的商业友好子集。数据集包含四列:conversations(用户和助手的对话轮次)、mask(不计算损失的轮次,默认为User)、system(系统提示)和dataset(数据来源)。数据混合的详细信息包括数据来源、样本数量和许可证。数据集的开源许可证为CC-BY-4.0,适用于商业用途。
提供机构:
nvidia
原始信息汇总

数据集概述

数据集描述

Daring-Anteater 是一个用于指令调优的综合数据集,涵盖了广泛的任务和场景。该数据集主要通过 NVIDIA 专有模型和 Mixtral-8x7B-Instruct-v0.1 合成生成,其余样本来自 FinQAwikitablequestions 和商业友好的 Open-Platypus 子集。

该数据集用于 HelpSteer2 论文,产生了一个用于进一步偏好调优的坚实 SFT 模型。我们开源此数据集以促进可重复性。

数据集结构

数据集包含四列:

  1. conversations: 用户和助手对话的格式
  2. mask: 不计算损失的轮次(默认为 "User")
  3. system: 系统提示
  4. dataset: 数据源

数据来源详情

数据源 样本数量 许可
synthetic_conv 82450 CC-BY-4.0
synthetic_roleplay 2996 CC-BY-4.0
synthetic_math 3000 CC-BY-4.0
synthetic_precise_instruction_following 1500 CC-BY-4.0
synthetic_json_format_following 1499 CC-BY-4.0
synthetic_complex_instruction 1500 CC-BY-4.0
open_platypus_commercial 6000 CC-BY-4.0/Apache-2.0/MIT
FinQA 300 CC-BY-4.0
wikitablequestions 287 CC-BY-4.0

许可

我们开源了合成子集,并采用 CC-BY-4.0 许可。所有其他子集也采用宽松许可,只要遵守许可条款,数据集可用于商业目的。

引用

如果您发现此数据集有用,请引用以下作品: bibtex @misc{wang2024helpsteer2, title={HelpSteer2: Open-source dataset for training top-performing reward models}, author={Zhilin Wang and Yi Dong and Olivier Delalleau and Jiaqi Zeng and Gerald Shen and Daniel Egert and Jimmy J. Zhang and Makesh Narsimhan Sreedhar and Oleksii Kuchaiev}, year={2024}, eprint={2406.08673}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作