HuggingFaceH4/no_robots
收藏Hugging Face2024-04-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceH4/no_robots
下载链接
链接失效反馈官方服务:
资源简介:
No Robots是一个包含10,000条由熟练人类注释者创建的高质量指令和演示的数据集,用于监督微调(SFT)以使语言模型更好地遵循指令。该数据集模仿了OpenAI的InstructGPT论文中描述的指令数据集,主要由单轮指令组成,涵盖生成、开放问答、头脑风暴、聊天、重写、总结、编码、分类、封闭问答和提取等类别。数据集的结构包括提示、提示ID、消息和类别字段,数据分割为训练集和测试集。数据集的语言为英语,许可证为CC BY-NC 4.0。
提供机构:
HuggingFaceH4
原始信息汇总
数据集概述
数据集名称
- 名称: No Robots
- 别名: No Robots 🙅♂️🤖
数据集描述
- 目的: 用于监督式微调(SFT)以提高语言模型遵循指令的能力。
- 内容: 包含10,000条由熟练的人类注释者创建的指令和演示。
- 类别分布:
类别 数量 Generation 4560 Open QA 1240 Brainstorm 1120 Chat 850 Rewrite 660 Summarize 420 Coding 350 Classify 350 Closed QA 260 Extract 190
数据集结构
- 语言: 英语(BCP-47 en)
- 数据字段:
prompt: 描述模型应执行的任务。prompt_id: 提示的唯一ID。messages: 消息数组,每条消息指示角色(系统、用户、助手)和内容。category: 示例所属的类别(例如Chat或Coding)。
- 数据分割:
分割 示例数量 train 9500 test 500
数据集使用
- 建议基准:
许可证
- 许可证: Creative Commons NonCommercial (CC BY-NC 4.0)
引用信息
@misc{no_robots, author = {Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf}, title = {No Robots}, year = {2023}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/HuggingFaceH4/no_robots}} }



