RyokoExtra/TvTroper-Cleaned
收藏Hugging Face2023-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoExtra/TvTroper-Cleaned
下载链接
链接失效反馈官方服务:
资源简介:
TvTroper-Cleaned是一个从TvTropes.org页面清理后的数据集,包含了最多651,522个wiki页面的文本。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集的语言为英语,文件格式为jsonl,每个文件包含100,000页的内容。数据集的创建目的是为了提供一个关于常见主题、叙事设备和角色原型的资源。数据集没有进行任何标准化处理,是直接从TvTropes.org抓取的原始数据。数据集不包含任何个人或敏感信息,且主要由TvTropes.org的编辑/用户生成。
TvTroper-Cleaned是一个从TvTropes.org页面清理后的数据集,包含了最多651,522个wiki页面的文本。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集的语言为英语,文件格式为jsonl,每个文件包含100,000页的内容。数据集的创建目的是为了提供一个关于常见主题、叙事设备和角色原型的资源。数据集没有进行任何标准化处理,是直接从TvTropes.org抓取的原始数据。数据集不包含任何个人或敏感信息,且主要由TvTropes.org的编辑/用户生成。
提供机构:
RyokoExtra
原始信息汇总
数据集概述
数据集名称: TvTroper-Cleaned
数据集描述: TvTroper-Cleaned 是一个经过清洗的数据集,包含来自 tvtropes.org 的最多 651,522 个维基页面的文本内容。
主要用途: 主要用于无监督训练文本生成模型,也可用于其他目的。
支持的任务:
- 文本分类
- 文本生成
语言: 英语
数据集结构
文件格式: 所有文件为 jsonl 格式,每个文件包含 100,000 页内容。
数据实例: json {"text":"<Title>
<Article Content>","url":"https://tvtropes.org/<...>"}
数据字段:
- URL: 页面链接,可能包含重定向。
- 内容: 页面内容,可能包含错误。
数据集创建
来源数据: 来自 TvTropes.org 的用户编辑内容。
数据收集与规范化: 未进行规范化处理,数据为原始转储。
注释: 无注释。
使用考虑
社会影响: 旨在帮助训练生成“更娱乐”的内容的模型。
偏见: 数据集主要包含媒体中使用的电视情节。
附加信息
数据集维护者: KaraKaraWitch
许可证: Apache 2.0
引用信息:
@misc{tvtroper-cleaned, title = {TvTroper Cleaned: Tropes & Others.}, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/RyokoExtra/TvTroper}}, }



