RyokoExtra/TvTroper-Cleaned

Name: RyokoExtra/TvTroper-Cleaned
Creator: RyokoExtra
Published: 2023-07-26 13:12:57
License: 暂无描述

Hugging Face2023-07-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/RyokoExtra/TvTroper-Cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

TvTroper-Cleaned是一个从TvTropes.org页面清理后的数据集，包含了最多651,522个wiki页面的文本。该数据集主要用于无监督的文本生成模型训练，但也可能适用于其他用途。数据集的语言为英语，文件格式为jsonl，每个文件包含100,000页的内容。数据集的创建目的是为了提供一个关于常见主题、叙事设备和角色原型的资源。数据集没有进行任何标准化处理，是直接从TvTropes.org抓取的原始数据。数据集不包含任何个人或敏感信息，且主要由TvTropes.org的编辑/用户生成。

提供机构：

RyokoExtra

原始信息汇总

数据集概述

数据集名称: TvTroper-Cleaned

数据集描述: TvTroper-Cleaned 是一个经过清洗的数据集，包含来自 tvtropes.org 的最多 651,522 个维基页面的文本内容。

主要用途: 主要用于无监督训练文本生成模型，也可用于其他目的。

支持的任务:

文本分类
文本生成

语言: 英语

数据集结构

文件格式: 所有文件为 jsonl 格式，每个文件包含 100,000 页内容。

数据实例: json {"text":"<Title>

<Article Content>","url":"https://tvtropes.org/<...>"}

数据字段:

URL: 页面链接，可能包含重定向。
内容: 页面内容，可能包含错误。

数据集创建

来源数据: 来自 TvTropes.org 的用户编辑内容。

数据收集与规范化: 未进行规范化处理，数据为原始转储。

注释: 无注释。

使用考虑

社会影响: 旨在帮助训练生成“更娱乐”的内容的模型。

偏见: 数据集主要包含媒体中使用的电视情节。

附加信息

数据集维护者: KaraKaraWitch

许可证: Apache 2.0

引用信息:

@misc{tvtroper-cleaned, title = {TvTroper Cleaned: Tropes & Others.}, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/RyokoExtra/TvTroper}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集