five

erhwenkuo/dolly-15k-chinese-zhtw

收藏
Hugging Face2023-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/dolly-15k-chinese-zhtw
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: instruction dtype: string - name: context dtype: string - name: response dtype: string splits: - name: train num_bytes: 10483730 num_examples: 15011 download_size: 7492947 dataset_size: 10483730 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-sa-3.0 task_categories: - question-answering - summarization language: - zh size_categories: - 10K<n<100K --- # Dataset Card for "dolly-15k-chinese-zhtw" ## 內容 dolly-15k-chinese-zhtw 是一個開源數據集,它的原始數據集 [databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k) 包含由數千名 Databricks 員工產生的指令追蹤記錄,涉及 [InstructGPT](https://arxiv.org/abs/2203.02155) 論文中概述的幾個行為類別,包括腦力激盪、分類、封閉式QA、生成、資訊擷取、開放式QA 和總結。 根據以下條款,該資料集可用於任何目的,無論是學術目的還是商業目的 [Creative Commons Attribution-ShareAlike 3.0 Unported License](https://creativecommons.org/licenses/by-sa/3.0/legalcode)。 ## 支援的任務 - 訓練 LLMs - 合成數據的生成 - 數據增強 ## 概述 databricks-dolly-15k 是由數千名 Databricks 員工產生的超過 15,000 筆記錄的語料庫,使大型語言模型能夠展現 ChatGPT 的神奇互動性。 Databricks 員工被邀請在八個不同的指令類別中的每一個類別中建立提示/回應對,其中包括 InstructGPT 論文中概述的七個類別,以及開放式自由格式類別。貢獻者被指示避免使用除維基百科(針對指令類別的特定子集)之外的網絡上任何來源的信息,並明確指示避免在製定指令或響應時使用生成式人工智能。提供了每種行為的範例,以激發適合每個類別的問題類型和說明。 在資料生成過程的中間,貢獻者可以選擇回答其他貢獻者提出的問題。他們被要求重新表述原來的問題,並且只選擇他們可以合理地預期正確回答的問題。 對於某些類別,貢獻者被要求提供從維基百科複製的參考文本。參考文本(由實際資料集中的上下文欄位指示)可能包含括號內的維基百科引用編號(例如[42]),我們建議使用者在下游應用程式中將其刪除。 ## 範例 一個樣本的範例: ``` { 'instruction': '小森田智昭是什麼時候出生的?', 'context': '小森田出生於1981年7月10日,出生在熊本縣。高中畢業後,他於2000年加入了J1聯賽俱樂部Avispa...', 'response': '小森田智明出生於1981年7月10日。' } ``` ## 資料欄位 資料有幾個欄位: - `instruction`: 描述模型應該執行的任務 - `context`: 任務內容的上下文 - `response`: 回應 ## 已知限制 - 維基百科是一個眾包語料庫,該資料集的內容可能反映維基百科中發現的偏見、事實錯誤和主題焦點 - 註釋者人口統計和主題可能反映 Databricks 員工的組成 ## 論文引用 ``` @online{DatabricksBlog2023DollyV2, author = {Mike Conover and Matt Hayes and Ankit Mathur and Jianwei Xie and Jun Wan and Sam Shah and Ali Ghodsi and Patrick Wendell and Matei Zaharia and Reynold Xin}, title = {Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM}, year = {2023}, url = {https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm}, urldate = {2023-06-30} } ``` ## 許可資訊 資料集中的某些類別的資料包括來自以下來源的資料,並根據 CC BY-SA 3.0 授權: - 維基百科 - https://www.wikipedia.org
提供机构:
erhwenkuo
原始信息汇总

数据集卡片 "dolly-15k-chinese-zhtw"

数据集信息

特征

  • instruction: 描述模型应执行的任务,数据类型为字符串。
  • context: 任务内容的上下文,数据类型为字符串。
  • response: 回应,数据类型为字符串。

数据分割

  • train: 训练集,包含15011个样本,总字节数为10483730。

数据大小

  • 下载大小: 7492947字节
  • 数据集大小: 10483730字节

配置

  • default: 包含训练数据文件,路径为data/train-*

许可

  • cc-by-sa-3.0: 数据集根据Creative Commons Attribution-ShareAlike 3.0 Unported License许可。

任务类别

  • question-answering: 问答
  • summarization: 摘要

语言

  • zh: 中文

数据集大小类别

  • 10K<n<100K: 数据集大小在10,000到100,000之间。

数据集概述

dolly-15k-chinese-zhtw是一个开源数据集,基于原始数据集databricks-dolly-15k,包含由数千名Databricks员工生成的指令追踪记录,涉及InstructGPT论文中概述的几个行为类别,包括脑力激荡、分类、封闭式QA、生成、信息提取、开放式QA和总结。

支持的任务

  • 训练LLMs
  • 合成数据的生成
  • 数据增强

数据字段

  • instruction: 描述模型应执行的任务
  • context: 任务内容的上下文
  • response: 回应

已知限制

  • 维基百科是一个众包语料库,该数据集的内容可能反映维基百科中发现的偏见、事实错误和主题焦点。
  • 注释者人口统计和主题可能反映Databricks员工的组成。

许可信息

数据集中的某些类别的数据包括来自以下来源的数据,并根据CC BY-SA 3.0授权:

  • 维基百科 - https://www.wikipedia.org
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作