merve/tr-h4-norobots
收藏Hugging Face2024-01-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/merve/tr-h4-norobots
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train_sft
path: train_sft.csv
- split: test_sft
path: test_sft.csv
dataset_info:
features:
- name: idx
dtype: int
- name: prompt
dtype: string
- name: prompt_id
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: category
dtype: string
splits:
- name: train_sft
- name: test_sft
task_categories:
- conversational
- text-generation
language:
- tr
pretty_name: No Robots
license: cc-by-nc-4.0
---
# No Robots Veriseti Kartı 🙅♂️🤖
### Özet
No Robots 10000 komut ve gösterimden oluşan, profesyonel etiketleyiciler tarafından oluşturulmuş bir verisetidir. Çevirisi Google Cloud Platform Translation API ile yapıldı. Bu veriset LLM'lere komut takibi öğretmek için kullanılabilir. (Instruction Supervised Fine-tuning - SFT)
No Robots veriseti OpenAI'ın [InstructGPT makalesinden](https://huggingface.co/papers/2203.02155) esinlenerek oluşturulmuştur ve aşağıdaki kategorilere sahiptir:
| Kategori | Adet |
|:-----------|--------:|
| Generation | 4560 |
| Open QA | 1240 |
| Brainstorm | 1120 |
| Chat | 850 |
| Rewrite | 660 |
| Summarize | 420 |
| Coding | 350 |
| Classify | 350 |
| Closed QA | 260 |
| Extract | 190 |
### Diller
Bu verisetinde sadece Türkçe var.
## Veriseti Yapısı
Bu verisetini CSV olarak yükledim. Örneklerin neye benzediğini görmek istiyorsanız widget'a bakın.
### Veri Alanları
Kolonlar aşağıdaki gibidir:
* `prompt`: Modelin takip etmesi gereken komutu belirler.
* `prompt_id`: Unique identifier.
* `messages`: Dictionary'ler içeren liste, her dictionary bir mesajı (key: content) ve o mesajı kimin gönderdiğini (key: role) açıklar.
* `category`: Görevin kategorisi, bunu çevirmedim.
### Split'ler
| | train_sft | test_sft |
|---------------|------:| ---: |
| no_robots | 9500 | 500 |
### Lisans
Bu veriseti ne yazık ki açık kaynak değil açık erişimli. Lisansı [Creative Commons NonCommercial (CC BY-NC 4.0)](https://creativecommons.org/licenses/by-nc/4.0/legalcode).
Eğer verisetinin kendisi açık kaynak olursa bu veriseti de açık kaynak olacaktır, çünkü çevirisini çeviriler üstünde fikri mülkiyet istemeyen GCP tarafından yaptım.
### Citation
```
@misc{no_robots,
author = {Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf},
title = {No Robots},
year = {2023},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/datasets/HuggingFaceH4/no_robots}}
}
```
提供机构:
merve
原始信息汇总
No Robots 数据集概述
数据集基本信息
- 名称: No Robots
- 语言: 土耳其语
- 许可证: Creative Commons NonCommercial (CC BY-NC 4.0)
- 任务类别: 对话, 文本生成
数据集结构
- 配置: default
- 数据文件:
train_sft.csv(split: train_sft)test_sft.csv(split: test_sft)
- 数据文件:
- 特征:
idx: 整数类型prompt: 字符串类型prompt_id: 字符串类型messages: 列表类型,包含字典,每个字典包含content(字符串类型) 和role(字符串类型)category: 字符串类型
- 分割:
train_sfttest_sft
数据集详情
- 摘要: No Robots 是一个由10000条指令和演示组成的数据集,由专业标注人员创建。该数据集用于指导大型语言模型进行指令跟踪(Instruction Supervised Fine-tuning - SFT)。
- 类别分布:
- Generation: 4560
- Open QA: 1240
- Brainstorm: 1120
- Chat: 850
- Rewrite: 660
- Summarize: 420
- Coding: 350
- Classify: 350
- Closed QA: 260
- Extract: 190
引用
@misc{no_robots, author = {Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf}, title = {No Robots}, year = {2023}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/HuggingFaceH4/no_robots}} }



