five

merve/tr-h4-norobots

收藏
Hugging Face2024-01-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/merve/tr-h4-norobots
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train_sft path: train_sft.csv - split: test_sft path: test_sft.csv dataset_info: features: - name: idx dtype: int - name: prompt dtype: string - name: prompt_id dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: category dtype: string splits: - name: train_sft - name: test_sft task_categories: - conversational - text-generation language: - tr pretty_name: No Robots license: cc-by-nc-4.0 --- # No Robots Veriseti Kartı 🙅‍♂️🤖 ### Özet No Robots 10000 komut ve gösterimden oluşan, profesyonel etiketleyiciler tarafından oluşturulmuş bir verisetidir. Çevirisi Google Cloud Platform Translation API ile yapıldı. Bu veriset LLM'lere komut takibi öğretmek için kullanılabilir. (Instruction Supervised Fine-tuning - SFT) No Robots veriseti OpenAI'ın [InstructGPT makalesinden](https://huggingface.co/papers/2203.02155) esinlenerek oluşturulmuştur ve aşağıdaki kategorilere sahiptir: | Kategori | Adet | |:-----------|--------:| | Generation | 4560 | | Open QA | 1240 | | Brainstorm | 1120 | | Chat | 850 | | Rewrite | 660 | | Summarize | 420 | | Coding | 350 | | Classify | 350 | | Closed QA | 260 | | Extract | 190 | ### Diller Bu verisetinde sadece Türkçe var. ## Veriseti Yapısı Bu verisetini CSV olarak yükledim. Örneklerin neye benzediğini görmek istiyorsanız widget'a bakın. ### Veri Alanları Kolonlar aşağıdaki gibidir: * `prompt`: Modelin takip etmesi gereken komutu belirler. * `prompt_id`: Unique identifier. * `messages`: Dictionary'ler içeren liste, her dictionary bir mesajı (key: content) ve o mesajı kimin gönderdiğini (key: role) açıklar. * `category`: Görevin kategorisi, bunu çevirmedim. ### Split'ler | | train_sft | test_sft | |---------------|------:| ---: | | no_robots | 9500 | 500 | ### Lisans Bu veriseti ne yazık ki açık kaynak değil açık erişimli. Lisansı [Creative Commons NonCommercial (CC BY-NC 4.0)](https://creativecommons.org/licenses/by-nc/4.0/legalcode). Eğer verisetinin kendisi açık kaynak olursa bu veriseti de açık kaynak olacaktır, çünkü çevirisini çeviriler üstünde fikri mülkiyet istemeyen GCP tarafından yaptım. ### Citation ``` @misc{no_robots, author = {Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf}, title = {No Robots}, year = {2023}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {\url{https://huggingface.co/datasets/HuggingFaceH4/no_robots}} } ```
提供机构:
merve
原始信息汇总

No Robots 数据集概述

数据集基本信息

  • 名称: No Robots
  • 语言: 土耳其语
  • 许可证: Creative Commons NonCommercial (CC BY-NC 4.0)
  • 任务类别: 对话, 文本生成

数据集结构

  • 配置: default
    • 数据文件:
      • train_sft.csv (split: train_sft)
      • test_sft.csv (split: test_sft)
  • 特征:
    • idx: 整数类型
    • prompt: 字符串类型
    • prompt_id: 字符串类型
    • messages: 列表类型,包含字典,每个字典包含 content (字符串类型) 和 role (字符串类型)
    • category: 字符串类型
  • 分割:
    • train_sft
    • test_sft

数据集详情

  • 摘要: No Robots 是一个由10000条指令和演示组成的数据集,由专业标注人员创建。该数据集用于指导大型语言模型进行指令跟踪(Instruction Supervised Fine-tuning - SFT)。
  • 类别分布:
    • Generation: 4560
    • Open QA: 1240
    • Brainstorm: 1120
    • Chat: 850
    • Rewrite: 660
    • Summarize: 420
    • Coding: 350
    • Classify: 350
    • Closed QA: 260
    • Extract: 190

引用

@misc{no_robots, author = {Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf}, title = {No Robots}, year = {2023}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/HuggingFaceH4/no_robots}} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作