sakusakumura/dolly-14k-ines

Name: sakusakumura/dolly-14k-ines
Creator: sakusakumura
Published: 2023-11-04 02:58:13
License: 暂无描述

Hugging Face2023-11-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sakusakumura/dolly-14k-ines

下载链接

链接失效反馈

官方服务：

资源简介：

**dolly-14k-ines**数据集是从`databricks-dolly-15k-ja`派生而来的，后者是`databricks/dolly-15k`的机器翻译版本。该数据集的条目进一步转换为反映《赛马娘 Pretty Derby》中角色Ines Fujin的说话风格。转换过程使用了专门为此任务开发的模型，未能成功模拟角色文本说话风格的条目被省略，因此数据集规模略有缩小。原始的`databricks-dolly-15k`数据集包含由Databricks员工生成的指令遵循记录，涵盖了多个行为类别，如头脑风暴、分类、封闭问答、生成、信息提取、开放问答和摘要，这些类别在InstructGPT论文中定义。该数据集基于《赛马娘 Pretty Derby》的衍生创作指南创建和提供。

The **dolly-14k-ines** dataset is derived from the databricks-dolly-15k-ja, which is a machine-translated version of the databricks/dolly-15k. The entries have been further converted to reflect the speech pattern of Ines Fujin, a character from Umamusume Pretty Derby. The conversion process utilized a model specifically developed for this task, and entries that did not successfully emulate the characters textual speech style were omitted, resulting in a slightly smaller dataset. The foundational databricks-dolly-15k dataset includes instruction-following records generated by Databricks employees and spans several behavioral categories, such as brainstorming, classification, closed QA, generation, information extraction, open QA, and summarization, as defined in the InstructGPT paper. This dataset is created and provided based on Umamusume Pretty Derbys derivative creation guidelines.

提供机构：

sakusakumura

原始信息汇总

dolly-14k-ines 数据集概述

数据集描述

dolly-14k-ines 数据集是从 databricks-dolly-15k-ja 派生出来的，后者是 databricks/dolly-15k 的机器翻译版本。该数据集的条目经过进一步转换，以反映《赛马娘 Pretty Derby》中角色 Ines Fujin 的说话模式。转换过程中使用了专门为此任务开发的模型，未成功模拟角色文本说话风格的条目被剔除，导致数据集略微缩小。基础的 databricks-dolly-15k 数据集包含由 Databricks 员工生成的指令遵循记录，涵盖多个行为类别，如头脑风暴、分类、封闭式问答、生成、信息提取、开放式问答和总结，这些类别在 InstructGPT 论文中有定义。

许可

该数据集基于《赛马娘 Pretty Derby》的衍生创作指南创建和提供，并采用 Creative Commons Attribution-ShareAlike 3.0 Unported License。

包含任务

dolly-14k-ines 数据集包含的任务与原始 databricks-dolly-15k 数据集相同，涵盖多种自然语言处理场景：

创意写作：设计引发创意、开放式书面回复的提示，适合具有一般知识的人，且详细到无需外部研究。
封闭式问答：根据提供的维基百科文本摘录，创建依赖事实准确性的复杂问题，涉及人类水平的推理，无需专业知识。
开放式问答：提出可以用一般世界知识或少量研究回答的问题，征求事实和基于意见的回答，无需参考材料。
总结：从维基百科段落中提炼信息，确保总结任务能在短时间内合理完成。
信息提取：从维基百科段落中提取特定信息，文本包含制定回答所需的所有必要细节。
分类：从给定的列表或类别中对实体进行分类，如电影评论或产品，分类标准包含在提示本身中。
头脑风暴：针对给定问题生成多样化的想法，促进创造力和广泛的建议。

这些任务最初在 databricks-dolly-15k 数据集中定义，并在 dolly-14k-ines 数据集中保留，以便于自然语言处理领域的研究和应用，特别是对特定风格文本适应或角色特定说话风格模拟感兴趣的研究者。

更新

2023-11-04：添加了关于许可的描述。使用此数据集时，必须遵循《赛马娘 Pretty Derby》的衍生创作指南。

5,000+

优质数据集

54 个

任务类型

进入经典数据集