erhwenkuo/dolly-15k-chinese-zhtw

Name: erhwenkuo/dolly-15k-chinese-zhtw
Creator: erhwenkuo
Published: 2023-10-13 14:32:29
License: 暂无描述

Hugging Face2023-10-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/erhwenkuo/dolly-15k-chinese-zhtw

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: instruction dtype: string - name: context dtype: string - name: response dtype: string splits: - name: train num_bytes: 10483730 num_examples: 15011 download_size: 7492947 dataset_size: 10483730 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-sa-3.0 task_categories: - question-answering - summarization language: - zh size_categories: - 10K<n<100K --- # Dataset Card for "dolly-15k-chinese-zhtw" ## 內容 dolly-15k-chinese-zhtw 是一個開源數據集，它的原始數據集 [databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k) 包含由數千名 Databricks 員工產生的指令追蹤記錄，涉及 [InstructGPT](https://arxiv.org/abs/2203.02155) 論文中概述的幾個行為類別，包括腦力激盪、分類、封閉式QA、生成、資訊擷取、開放式QA 和總結。根據以下條款，該資料集可用於任何目的，無論是學術目的還是商業目的 [Creative Commons Attribution-ShareAlike 3.0 Unported License](https://creativecommons.org/licenses/by-sa/3.0/legalcode)。 ## 支援的任務 - 訓練 LLMs - 合成數據的生成 - 數據增強 ## 概述 databricks-dolly-15k 是由數千名 Databricks 員工產生的超過 15,000 筆記錄的語料庫，使大型語言模型能夠展現 ChatGPT 的神奇互動性。 Databricks 員工被邀請在八個不同的指令類別中的每一個類別中建立提示/回應對，其中包括 InstructGPT 論文中概述的七個類別，以及開放式自由格式類別。貢獻者被指示避免使用除維基百科（針對指令類別的特定子集）之外的網絡上任何來源的信息，並明確指示避免在製定指令或響應時使用生成式人工智能。提供了每種行為的範例，以激發適合每個類別的問題類型和說明。在資料生成過程的中間，貢獻者可以選擇回答其他貢獻者提出的問題。他們被要求重新表述原來的問題，並且只選擇他們可以合理地預期正確回答的問題。對於某些類別，貢獻者被要求提供從維基百科複製的參考文本。參考文本（由實際資料集中的上下文欄位指示）可能包含括號內的維基百科引用編號（例如[42]），我們建議使用者在下游應用程式中將其刪除。 ## 範例一個樣本的範例: ``` { 'instruction': '小森田智昭是什麼時候出生的？', 'context': '小森田出生於1981年7月10日，出生在熊本縣。高中畢業後，他於2000年加入了J1聯賽俱樂部Avispa...', 'response': '小森田智明出生於1981年7月10日。' } ``` ## 資料欄位資料有幾個欄位： - `instruction`: 描述模型應該執行的任務 - `context`: 任務內容的上下文 - `response`: 回應 ## 已知限制 - 維基百科是一個眾包語料庫，該資料集的內容可能反映維基百科中發現的偏見、事實錯誤和主題焦點 - 註釋者人口統計和主題可能反映 Databricks 員工的組成 ## 論文引用 ``` @online{DatabricksBlog2023DollyV2, author = {Mike Conover and Matt Hayes and Ankit Mathur and Jianwei Xie and Jun Wan and Sam Shah and Ali Ghodsi and Patrick Wendell and Matei Zaharia and Reynold Xin}, title = {Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM}, year = {2023}, url = {https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm}, urldate = {2023-06-30} } ``` ## 許可資訊資料集中的某些類別的資料包括來自以下來源的資料，並根據 CC BY-SA 3.0 授權： - 維基百科 - https://www.wikipedia.org

提供机构：

erhwenkuo

原始信息汇总

数据集卡片 "dolly-15k-chinese-zhtw"

数据集信息

特征

instruction: 描述模型应执行的任务，数据类型为字符串。
context: 任务内容的上下文，数据类型为字符串。
response: 回应，数据类型为字符串。

数据分割

train: 训练集，包含15011个样本，总字节数为10483730。

数据大小

下载大小: 7492947字节
数据集大小: 10483730字节

配置

default: 包含训练数据文件，路径为data/train-*。

许可

cc-by-sa-3.0: 数据集根据Creative Commons Attribution-ShareAlike 3.0 Unported License许可。

任务类别

question-answering: 问答
summarization: 摘要

语言

zh: 中文

数据集大小类别

10K<n<100K: 数据集大小在10,000到100,000之间。

数据集概述

dolly-15k-chinese-zhtw是一个开源数据集，基于原始数据集databricks-dolly-15k，包含由数千名Databricks员工生成的指令追踪记录，涉及InstructGPT论文中概述的几个行为类别，包括脑力激荡、分类、封闭式QA、生成、信息提取、开放式QA和总结。

支持的任务

训练LLMs
合成数据的生成
数据增强

数据字段

instruction: 描述模型应执行的任务
context: 任务内容的上下文
response: 回应

已知限制

维基百科是一个众包语料库，该数据集的内容可能反映维基百科中发现的偏见、事实错误和主题焦点。
注释者人口统计和主题可能反映Databricks员工的组成。

许可信息

数据集中的某些类别的数据包括来自以下来源的数据，并根据CC BY-SA 3.0授权：

维基百科 - https://www.wikipedia.org

5,000+

优质数据集

54 个

任务类型

进入经典数据集