chtmp223/suri
收藏Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/chtmp223/suri
下载链接
链接失效反馈官方服务:
资源简介:
Suri数据集包含20K多约束指令,每个指令都附有人工编写的黄金响应,这些响应来源于Books3、ChapterBreak和RedPajama-Data-v2。数据集主要用于长文本生成任务,支持I-ORPO和SFT实现。每个实例包含多个字段,如id、type、prompt_chosen、prompt_rejected、answer、messages、main_ins、cons_chosen和cons_rejected,这些字段有助于理解和处理数据。
Suri数据集包含20K多约束指令,每个指令都附有人工编写的黄金响应,这些响应来源于Books3、ChapterBreak和RedPajama-Data-v2。数据集主要用于长文本生成任务,支持I-ORPO和SFT实现。每个实例包含多个字段,如id、type、prompt_chosen、prompt_rejected、answer、messages、main_ins、cons_chosen和cons_rejected,这些字段有助于理解和处理数据。
提供机构:
chtmp223
原始信息汇总
数据集概述
基本信息
- 数据集名称: Suri
- 任务类别: 文本生成
- 语言: 英语
- 许可证: Apache-2.0
- 数据集大小: 740,607,355 字节
- 下载大小: 432,055,269 字节
- 数据集规模: 10K < n < 100K
数据集结构
特征字段
- id: 字符串类型,由数据源特定的文件名或文件路径构成。
- type: 字符串类型,表示数据源类型("b3" 表示 Books3,"redpj" 表示 RedPajama,"ao3" 表示 ChapterBreak)。
- prompt_chosen: 包含被选中的提示。
- content: 字符串类型,提示内容。
- role: 字符串类型,提示角色。
- prompt_rejected: 包含被拒绝的提示。
- content: 字符串类型,提示内容。
- role: 字符串类型,提示角色。
- answer: 包含黄金响应。
- content: 字符串类型,响应内容。
- role: 字符串类型,响应角色。
- messages: 包含提示(带有主指令和多个约束)和黄金响应(与
answer相同)。- content: 字符串类型,消息内容。
- role: 字符串类型,消息角色。
- main_ins: 字符串类型,包含指令的主要目标。
- cons_chosen: 字符串类型,包含被选中的约束。应与
main_ins连接以获得完整的反向翻译指令。 - cons_rejected: 字符串类型,包含被拒绝的约束。应与
main_ins连接以获得完整的违反指令。
数据分割
- train: 包含 10,000 个样本,368,429,271 字节。
- dev: 包含 5,000 个样本,187,353,077 字节。
- test: 包含 5,000 个样本,184,825,007 字节。
数据集来源
- Books3: 数据集来源之一。
- ChapterBreak: 数据集来源之一。
- RedPajama-Data-v2: 数据集来源之一。
引用
@misc{pham2024surimulticonstraintinstructionfollowing, title={Suri: Multi-constraint Instruction Following for Long-form Text Generation}, author={Chau Minh Pham and Simeng Sun and Mohit Iyyer}, year={2024}, eprint={2406.19371}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.19371}, }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



