fabraz/writingPromptAug

Name: fabraz/writingPromptAug
Creator: fabraz
Published: 2023-10-14 19:48:35
License: 暂无描述

Hugging Face2023-10-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fabraz/writingPromptAug

下载链接

链接失效反馈

官方服务：

资源简介：

Writing Prompt Augmentation Dataset旨在扩展FAIR Writing Prompt Dataset的样本，以支持Open Assistant项目。该数据集包含文本生成任务，语言为英语。数据集结构包括训练集、验证集和测试集，分别包含13232、5168和5700个样本。数据字段包括splitLineIndex和text，分别表示数据源的行索引和实际的提示/故事文本。数据集创建过程基于FAIR Writing Prompt Dataset，并包含NSFW样本。数据集采用MIT许可证。

提供机构：

fabraz

原始信息汇总

数据集概述

数据集名称

Writing Prompt Augmentation Dataset

数据集描述

该数据集旨在扩展FAIR Writing Prompt Dataset的样本，用于Open Assistant的训练。

语言

英语

数据集结构

数据字段

splitLineIndex: 数据源的索引行，数据类型为int64。
text: 实际的提示/故事文本，数据类型为string。

数据分割

train: 13232个样本
valid: 5168个样本
test: 5700个样本

数据集创建

源数据

初始数据收集和规范化: 该数据集是FAIR写作提示数据集的扩展，具体创建步骤在jupyter笔记本文件中。
源语言生产者: FAIR

个人信息和敏感信息

数据包含NSFW样本，需注意。

附加信息

许可信息

数据集根据MIT许可证授权。

引用信息

用于生成一致故事的方法参考自Hierarchical Neural Story Generation (Fan et al., 2018)。

5,000+

优质数据集

54 个

任务类型

进入经典数据集