2A2I/H4_no_robots
收藏Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/2A2I/H4_no_robots
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
dataset_info:
features:
- name: prompt
dtype: string
- name: prompt_id
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: category
dtype: string
splits:
- name: train
num_bytes: 16496867
num_examples: 9500
- name: test
num_bytes: 887460
num_examples: 500
download_size: 11045465
dataset_size: 17384327
task_categories:
- text-generation
language:
- ar
pretty_name: لا روبوتات
license: cc-by-nc-4.0
---
### Dataset Card for "No Robots" 🙅♂️🤖
#### Summary
"No Robots" is a dataset consisting of 10,000 instructions and demonstrations, created by professional annotators. It was translated using the Google Cloud Platform Translation API. This dataset can be used to train language models to follow instructions more accurately (instruction-tuned fine-tuning - SFT). The "No Robots" dataset was created based on the dataset described in OpenAI's [InstructGPT](https://huggingface.co/papers/2203.02155) paper, and includes the following categories:
| Category | Count |
|-------------------|------:|
| Creation | 4560 |
| Open Questions | 1240 |
| Brainstorming | 1120 |
| Chatting | 850 |
| Rewriting | 660 |
| Summarization | 420 |
| Programming | 350 |
| Classification | 350 |
| Closed Questions | 260 |
| Extraction | 190 |
#### Languages
This dataset is available in Arabic only. The original version in **English** can be found at [this link](https://huggingface.co/datasets/HuggingFaceH4/no_robots), and the **Turkish** version at [this link](https://huggingface.co/datasets/merve/tr-h4-norobots).
#### Data Fields
Columns as follows:
* `prompt`: Specifies the instruction that the model should follow.
* `prompt_id`: A unique identifier.
* `messages`: A list containing dictionaries, each dictionary describes a message (key: content) and who sent it (key: role).
* `category`: The task category, I did not translate this.
#### Splits
| | train | test |
|------------------|------:|-----:|
| No Robots | 9500 | 500 |
#### License
The dataset is available under the [(CC BY-NC 4.0)](https://creativecommons.org/licenses/by-nc/4.0/legalcode) license.
#### Citation Information
```
@misc{no_robots,
author = {Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf},
title = {No Robots},
year = {2023},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/datasets/HuggingFaceH4/no_robots}}
}
```
配置项:
- 配置名称:default
数据文件:
- 拆分集:训练集(train)
路径:data/train-*
- 拆分集:测试集(test)
路径:data/test-*
数据集信息:
特征字段:
- 字段名:prompt
数据类型:字符串(string)
- 字段名:prompt_id
数据类型:字符串(string)
- 字段名:messages
列表类型:
- 子字段名:content
数据类型:字符串(string)
- 子字段名:role
数据类型:字符串(string)
- 字段名:category
数据类型:字符串(string)
拆分集详情:
- 拆分集名称:train
字节数:16496867
样本数量:9500
- 拆分集名称:test
字节数:887460
样本数量:500
下载大小:11045465
数据集总大小:17384327
任务类别:
- 文本生成(text-generation)
语言:
- 阿拉伯语(ar)
显示名称:لا روبوتات(无机器人)
许可证:cc-by-nc-4.0
### 「无机器人(No Robots)」数据集卡片 🙅♂️🤖
#### 数据集概述
“无机器人”数据集包含10000条指令与演示样本,由专业标注人员构建,通过谷歌云平台翻译API完成译制。本数据集可用于训练可更精准遵循指令的大语言模型(Large Language Model,LLM),适用于指令微调(SFT)场景。本数据集基于OpenAI发布的[InstructGPT](https://huggingface.co/papers/2203.02155)论文中提及的数据集构建,涵盖以下任务类别:
| 任务类别 | 样本数量 |
|-------------------|---------:|
| 创建(Creation) | 4560 |
| 开放型问答(Open Questions) | 1240 |
| 头脑风暴(Brainstorming) | 1120 |
| 闲聊(Chatting) | 850 |
| 文本改写(Rewriting) | 660 |
| 文本摘要(Summarization) | 420 |
| 编程(Programming) | 350 |
| 分类(Classification) | 350 |
| 封闭型问答(Closed Questions) | 260 |
| 信息抽取(Extraction) | 190 |
#### 语言说明
本数据集仅提供阿拉伯语版本。英文原版数据集可通过[此链接](https://huggingface.co/datasets/HuggingFaceH4/no_robots)获取,土耳其语版本可通过[此链接](https://huggingface.co/datasets/merve/tr-h4-norobots)获取。
#### 数据字段说明
各字段说明如下:
* `prompt`:指定模型需遵循的指令。
* `prompt_id`:唯一标识符。
* `messages`:由字典构成的列表,每个字典用于描述一条消息,其中键`content`代表消息内容,键`role`代表消息发送者角色。
* `category`:任务类别(原文未译)。
#### 拆分集设置
| | 训练集 | 测试集 |
|------------------|-------:|-------:|
| 无机器人数据集 | 9500 | 500 |
#### 许可证
本数据集采用[(CC BY-NC 4.0)](https://creativecommons.org/licenses/by-nc/4.0/legalcode)许可证进行分发。
#### 引用信息
@misc{no_robots,
author = {Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf},
title = {No Robots},
year = {2023},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/datasets/HuggingFaceH4/no_robots}}
}
提供机构:
2A2I
原始信息汇总
数据集概述
数据集名称
"No Robots"
数据集摘要
"No Robots" 是一个包含10,000条指令和演示的数据集,由专业标注人员创建。该数据集通过Google Cloud Platform Translation API进行翻译。它可以用于训练语言模型更准确地遵循指令(指令微调 - SFT)。"No Robots" 数据集基于OpenAI的InstructGPT论文中描述的数据集创建,包含以下类别:
| 类别 | 数量 |
|---|---|
| Creation | 4560 |
| Open Questions | 1240 |
| Brainstorming | 1120 |
| Chatting | 850 |
| Rewriting | 660 |
| Summarization | 420 |
| Programming | 350 |
| Classification | 350 |
| Closed Questions | 260 |
| Extraction | 190 |
语言
该数据集仅提供阿拉伯语版本。
数据字段
数据集包含以下字段:
prompt: 指定模型应遵循的指令。prompt_id: 唯一标识符。messages: 包含字典的列表,每个字典描述一条消息(键:content)和发送者(键:role)。category: 任务类别。
数据分割
| 分割 | 数量 |
|---|---|
| train | 9500 |
| test | 500 |
许可证
该数据集在(CC BY-NC 4.0)许可证下可用。
引用信息
@misc{no_robots, author = {Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf}, title = {No Robots}, year = {2023}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/HuggingFaceH4/no_robots}} }
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,指令微调数据集对于提升模型遵循人类指令的能力至关重要。'No Robots'数据集的构建源于对OpenAI InstructGPT论文中数据范式的借鉴,通过专业标注人员精心设计了涵盖创作、开放式问答、头脑风暴、聊天、重写、摘要、编程、分类、封闭式问答及信息抽取等十类任务的指令与演示。该数据集包含一万条样本,并利用Google Cloud Platform Translation API将原始英文内容精准翻译为阿拉伯语,确保了语言转换的准确性与文化适应性,最终形成训练集与测试集的明确划分。
特点
作为专注于阿拉伯语指令微调的数据集,'No Robots'展现出鲜明的语言与任务特性。其全部内容均以阿拉伯语呈现,为阿拉伯语自然语言处理模型提供了稀缺的高质量指令跟随资源。数据集覆盖了从创造性写作到技术编程的多元任务类别,其中创作类任务占比最高,体现了对生成性能力的侧重。每条数据均包含明确的指令提示、唯一标识符、多轮对话结构及未翻译的原始任务类别标签,结构清晰且便于模型区分与学习不同指令模式。
使用方法
该数据集主要用于语言模型的指令微调,旨在优化模型对人类指令的理解与执行能力。研究人员可直接加载数据集,利用其训练集对模型进行监督式微调,引导模型学习如何根据给定的'prompt'生成符合'role'与'content'要求的对话响应。测试集则用于评估模型在未见指令上的泛化性能。使用前需注意其CC BY-NC 4.0许可协议,确保在符合许可的非商业场景下应用。典型流程包括数据加载、预处理、模型训练与评估,可直接集成于Hugging Face生态中进行高效实验与部署。
背景与挑战
背景概述
在人工智能领域,指令微调技术对于提升大型语言模型遵循人类指令的能力至关重要。2023年,由Nazneen Rajani、Lewis Tunstall等研究人员及Hugging Face机构发布的'No Robots'数据集,正是这一研究方向的重要产物。该数据集基于OpenAI InstructGPT论文中的框架构建,旨在通过高质量的人工标注指令与演示,专门服务于指令监督微调任务。其核心研究问题聚焦于如何让语言模型更精准地理解并执行多样化的用户指令,涵盖了创作、开放式问答、头脑风暴、聊天、重写、摘要、编程、分类、封闭式问答及信息抽取等十类任务。作为首个专注于阿拉伯语指令微调的数据集之一,它不仅丰富了多语言自然语言处理资源,也为阿拉伯语社区的模型优化与应用开发提供了关键支持。
当前挑战
该数据集致力于解决指令微调领域的核心挑战,即如何使语言模型在遵循复杂、多样的人类指令时表现出更高的准确性与适应性。具体而言,挑战体现在模型需跨越不同任务类别(如创造性写作与严谨编程)的语义鸿沟,并精准捕捉阿拉伯语特有的语言结构与文化语境。在构建过程中,挑战主要来自两方面:一是高质量数据的人工标注成本高昂,需要专业标注者确保指令的清晰度与演示的准确性;二是跨语言迁移的复杂性,数据集通过机器翻译从英文原版转化而来,如何在保持任务意图一致性的同时,妥善处理阿拉伯语与英语之间的语言差异及文化适配,成为构建过程中的关键难题。
常用场景
经典使用场景
在自然语言处理领域,指令微调已成为提升语言模型交互能力的关键技术。该数据集作为高质量的阿拉伯语指令数据集,其经典使用场景在于为大型语言模型提供监督式微调的训练样本。通过涵盖创作、开放式问答、头脑风暴、聊天、重写、摘要、编程、分类、封闭式问答和提取等多种任务类别,数据集能够系统性地引导模型学习如何准确理解并执行人类指令,从而优化模型在多样化任务中的泛化性能与响应质量。
实际应用
在实际应用层面,该数据集能够赋能面向阿拉伯语用户的智能助手与对话系统。基于此数据集微调的模型可广泛应用于客户服务、内容创作辅助、教育技术以及信息检索等领域。例如,在客户支持场景中,模型能够更准确地理解阿拉伯语用户的查询意图并提供符合文化习惯的回复;在教育领域,则可辅助生成个性化的学习材料与互动练习,提升数字化服务的本土化体验。
衍生相关工作
该数据集衍生的相关经典工作主要围绕多语言指令微调与模型对齐研究展开。其设计灵感源于OpenAI的InstructGPT论文框架,后续催生了针对特定语言与文化场景的适配研究。例如,基于此类数据结构的微调方法被广泛应用于LLaMA、BLOOM等开源模型的阿拉伯语能力优化,并进一步激发了关于指令数据质量评估、跨语言知识迁移以及安全对齐策略等一系列重要研究方向,持续推动着负责任AI的发展。
以上内容由遇见数据集搜集并总结生成



