five

HuggingFaceH4/no_robots

收藏
Hugging Face2024-04-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceH4/no_robots
下载链接
链接失效反馈
官方服务:
资源简介:
No Robots是一个包含10,000条由熟练人类注释者创建的高质量指令和演示的数据集,用于监督微调(SFT)以使语言模型更好地遵循指令。该数据集模仿了OpenAI的InstructGPT论文中描述的指令数据集,主要由单轮指令组成,涵盖生成、开放问答、头脑风暴、聊天、重写、总结、编码、分类、封闭问答和提取等类别。数据集的结构包括提示、提示ID、消息和类别字段,数据分割为训练集和测试集。数据集的语言为英语,许可证为CC BY-NC 4.0。
提供机构:
HuggingFaceH4
原始信息汇总

数据集概述

数据集名称

  • 名称: No Robots
  • 别名: No Robots 🙅‍♂️🤖

数据集描述

  • 目的: 用于监督式微调(SFT)以提高语言模型遵循指令的能力。
  • 内容: 包含10,000条由熟练的人类注释者创建的指令和演示。
  • 类别分布:
    类别 数量
    Generation 4560
    Open QA 1240
    Brainstorm 1120
    Chat 850
    Rewrite 660
    Summarize 420
    Coding 350
    Classify 350
    Closed QA 260
    Extract 190

数据集结构

  • 语言: 英语(BCP-47 en)
  • 数据字段:
    • prompt: 描述模型应执行的任务。
    • prompt_id: 提示的唯一ID。
    • messages: 消息数组,每条消息指示角色(系统、用户、助手)和内容。
    • category: 示例所属的类别(例如ChatCoding)。
  • 数据分割:
    分割 示例数量
    train 9500
    test 500

数据集使用

许可证

  • 许可证: Creative Commons NonCommercial (CC BY-NC 4.0)

引用信息

@misc{no_robots, author = {Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf}, title = {No Robots}, year = {2023}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/HuggingFaceH4/no_robots}} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作