five

chtmp223/suri

收藏
Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/chtmp223/suri
下载链接
链接失效反馈
官方服务:
资源简介:
Suri数据集包含20K多约束指令,每个指令都附有人工编写的黄金响应,这些响应来源于Books3、ChapterBreak和RedPajama-Data-v2。数据集主要用于长文本生成任务,支持I-ORPO和SFT实现。每个实例包含多个字段,如id、type、prompt_chosen、prompt_rejected、answer、messages、main_ins、cons_chosen和cons_rejected,这些字段有助于理解和处理数据。

Suri数据集包含20K多约束指令,每个指令都附有人工编写的黄金响应,这些响应来源于Books3、ChapterBreak和RedPajama-Data-v2。数据集主要用于长文本生成任务,支持I-ORPO和SFT实现。每个实例包含多个字段,如id、type、prompt_chosen、prompt_rejected、answer、messages、main_ins、cons_chosen和cons_rejected,这些字段有助于理解和处理数据。
提供机构:
chtmp223
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Suri
  • 任务类别: 文本生成
  • 语言: 英语
  • 许可证: Apache-2.0
  • 数据集大小: 740,607,355 字节
  • 下载大小: 432,055,269 字节
  • 数据集规模: 10K < n < 100K

数据集结构

特征字段

  • id: 字符串类型,由数据源特定的文件名或文件路径构成。
  • type: 字符串类型,表示数据源类型("b3" 表示 Books3,"redpj" 表示 RedPajama,"ao3" 表示 ChapterBreak)。
  • prompt_chosen: 包含被选中的提示。
    • content: 字符串类型,提示内容。
    • role: 字符串类型,提示角色。
  • prompt_rejected: 包含被拒绝的提示。
    • content: 字符串类型,提示内容。
    • role: 字符串类型,提示角色。
  • answer: 包含黄金响应。
    • content: 字符串类型,响应内容。
    • role: 字符串类型,响应角色。
  • messages: 包含提示(带有主指令和多个约束)和黄金响应(与 answer 相同)。
    • content: 字符串类型,消息内容。
    • role: 字符串类型,消息角色。
  • main_ins: 字符串类型,包含指令的主要目标。
  • cons_chosen: 字符串类型,包含被选中的约束。应与 main_ins 连接以获得完整的反向翻译指令。
  • cons_rejected: 字符串类型,包含被拒绝的约束。应与 main_ins 连接以获得完整的违反指令。

数据分割

  • train: 包含 10,000 个样本,368,429,271 字节。
  • dev: 包含 5,000 个样本,187,353,077 字节。
  • test: 包含 5,000 个样本,184,825,007 字节。

数据集来源

  • Books3: 数据集来源之一。
  • ChapterBreak: 数据集来源之一。
  • RedPajama-Data-v2: 数据集来源之一。

引用

@misc{pham2024surimulticonstraintinstructionfollowing, title={Suri: Multi-constraint Instruction Following for Long-form Text Generation}, author={Chau Minh Pham and Simeng Sun and Mohit Iyyer}, year={2024}, eprint={2406.19371}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.19371}, }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作