five

RyokoExtra/TvTroper-Cleaned

收藏
Hugging Face2023-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoExtra/TvTroper-Cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
TvTroper-Cleaned是一个从TvTropes.org页面清理后的数据集,包含了最多651,522个wiki页面的文本。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集的语言为英语,文件格式为jsonl,每个文件包含100,000页的内容。数据集的创建目的是为了提供一个关于常见主题、叙事设备和角色原型的资源。数据集没有进行任何标准化处理,是直接从TvTropes.org抓取的原始数据。数据集不包含任何个人或敏感信息,且主要由TvTropes.org的编辑/用户生成。

TvTroper-Cleaned是一个从TvTropes.org页面清理后的数据集,包含了最多651,522个wiki页面的文本。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集的语言为英语,文件格式为jsonl,每个文件包含100,000页的内容。数据集的创建目的是为了提供一个关于常见主题、叙事设备和角色原型的资源。数据集没有进行任何标准化处理,是直接从TvTropes.org抓取的原始数据。数据集不包含任何个人或敏感信息,且主要由TvTropes.org的编辑/用户生成。
提供机构:
RyokoExtra
原始信息汇总

数据集概述

数据集名称: TvTroper-Cleaned

数据集描述: TvTroper-Cleaned 是一个经过清洗的数据集,包含来自 tvtropes.org 的最多 651,522 个维基页面的文本内容。

主要用途: 主要用于无监督训练文本生成模型,也可用于其他目的。

支持的任务:

  • 文本分类
  • 文本生成

语言: 英语

数据集结构

文件格式: 所有文件为 jsonl 格式,每个文件包含 100,000 页内容。

数据实例: json {"text":"<Title>

<Article Content>","url":"https://tvtropes.org/<...>"}

数据字段:

  • URL: 页面链接,可能包含重定向。
  • 内容: 页面内容,可能包含错误。

数据集创建

来源数据: 来自 TvTropes.org 的用户编辑内容。

数据收集与规范化: 未进行规范化处理,数据为原始转储。

注释: 无注释。

使用考虑

社会影响: 旨在帮助训练生成“更娱乐”的内容的模型。

偏见: 数据集主要包含媒体中使用的电视情节。

附加信息

数据集维护者: KaraKaraWitch

许可证: Apache 2.0

引用信息:

@misc{tvtroper-cleaned, title = {TvTroper Cleaned: Tropes & Others.}, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/RyokoExtra/TvTroper}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作