RyokoAI/ScribbleHub17K
收藏Hugging Face2023-04-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoAI/ScribbleHub17K
下载链接
链接失效反馈官方服务:
资源简介:
ScribbleHub17K数据集包含来自Scribble Hub网站的超过373,000章节的文本,涵盖了大约17,500个系列。该数据集主要用于无监督的文本生成模型训练,但也可能用于其他目的。每个数据实例包括章节文本和元数据,如系列ID、章节ID、质量评分、标题、作者、章节数、评分、评分次数、类型和标签。数据集未进行分割,且包含NSFW内容,未经过滤。数据集反映了作者的偏见,使用时需注意。
ScribbleHub17K数据集包含来自Scribble Hub网站的超过373,000章节的文本,涵盖了大约17,500个系列。该数据集主要用于无监督的文本生成模型训练,但也可能用于其他目的。每个数据实例包括章节文本和元数据,如系列ID、章节ID、质量评分、标题、作者、章节数、评分、评分次数、类型和标签。数据集未进行分割,且包含NSFW内容,未经过滤。数据集反映了作者的偏见,使用时需注意。
提供机构:
RyokoAI
原始信息汇总
数据集概述
名称: ScribbleHub17K
描述: ScribbleHub17K 是一个包含超过373,000章节、约17,500个系列的数据集,源自原始故事分享网站 Scribble Hub。
语言: 英语
许可: Apache-2.0
主要用途: 主要用于无监督文本生成模型的训练,也可用于其他文本相关任务。
数据集结构
数据实例
每个数据实例包含以下字段:
- text: 章节文本内容
- meta: 元数据,包括:
subset: 数据源标签,固定为scribblehubseries: 系列IDid: 章节IDlang: 语言,始终为en(英语)q: 质量评分,范围从0.0到1.0title: 章节和系列标题chapters: 系列中的章节总数rating: Scribble Hub评分,范围0到5星rating_ct: 评分次数author: 作者名genre: 系列流派列表tags: 系列标签列表
Q-Score分布
质量评分(Q-Score)分布如下:
0.00: 0 0.10: 0 0.20: 0 0.30: 84 0.40: 718 0.50: 3775 0.60: 22300 0.70: 72581 0.80: 137982 0.90: 135800 1.00: 59
数据集创建
来源数据
- 语言生产者: 各小说的作者
- 注释过程: 使用脚本自动解析标题、评分等元数据
使用考虑
- 社会影响: 旨在帮助训练生成“更娱乐”的内容的模型
- 偏见讨论: 数据集内容反映作者的偏见,包含未过滤的NSFW材料
附加信息
- 数据集维护者: Ronsor Labs
- 许可证: Apache 2.0
- 引用信息:
@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }
搜集汇总
数据集介绍

构建方式
在数字文学创作领域,ScribbleHub17K数据集通过系统化采集与结构化处理构建而成。该数据集源自Scribble Hub原创故事平台的公开内容,涵盖逾37.3万章节文本与1.75万部系列作品。采用自动化脚本对原始网页进行解析,提取章节文本及标题、作者、评分、流派等多维度元数据,并引入基于质量评估算法的q-score量化指标,形成标准化JSON格式的语料库。数据构建过程遵循非人工干预原则,通过程序化流程确保原始创作内容的完整性。
特点
作为聚焦虚构文学领域的语料资源,本数据集展现出鲜明的领域特异性与结构化深度。其核心特征在于融合高质量文学文本与丰富的元数据体系:每章节不仅包含完整叙事文本,更附有作者信息、读者评分、流派分类及内容标签等多层语义标注。特别设计的q-score质量评分机制,通过0-1区间数值直观反映文本可读性水平,其中超过98%的样本达到0.5以上的合格阈值。数据规模达到十万至百万量级,且完整保留网络文学特有的创作风格与叙事结构,为模型训练提供高度场景化的语言素材。
使用方法
该数据集主要面向自然语言生成任务的模型训练与应用开发。研究者可基于Apache 2.0许可协议,通过HuggingFace平台直接加载标准化数据接口。使用时应优先筛选q-score高于0.5的优质样本作为训练集,并注意数据包含未经过滤的成人内容,需建立相应的内容过滤机制。在文本生成任务中,建议结合章节元数据中的流派标签构建条件生成框架;对于分类任务,则可利用评分字段与标签体系进行监督学习。由于数据未预设划分,使用者需根据具体任务需求自行设计训练验证分割策略。
背景与挑战
背景概述
在自然语言处理领域,高质量、大规模的文本数据集对于推动生成模型的发展至关重要。ScribbleHub17K数据集由Ronsor实验室于2023年构建,旨在从Scribble Hub原创故事平台中提取超过37.3万章节的文本内容,涵盖约1.75万部系列作品。该数据集的核心研究问题在于为文本生成模型提供丰富、多样化的叙事性语料,以增强模型在创作娱乐性内容方面的能力。其构建基于BigKnow2022项目框架,通过自动化脚本解析元数据,为无监督训练及文本分类任务提供了重要资源,对创意写作辅助和故事生成等应用领域产生了积极影响。
当前挑战
ScribbleHub17K数据集面临的挑战主要体现在两个方面:在领域问题层面,该数据集旨在解决叙事性文本生成中的多样性与连贯性难题,但网络原创故事常包含非结构化语言、风格差异及隐含偏见,这增加了模型学习统一叙事模式的复杂度;在构建过程中,挑战源于数据源的异构性,包括章节质量参差不齐、元数据解析的准确性依赖自动化脚本,且未经过滤的NSFW内容可能引入社会偏见,需在数据清洗与伦理考量间寻求平衡。
常用场景
经典使用场景
在自然语言生成领域,ScribbleHub17K数据集以其丰富的原创故事文本,为无监督文本生成模型的训练提供了宝贵资源。该数据集汇集了超过37万章节的英文小说内容,涵盖多样化的叙事风格和主题,使得模型能够学习到连贯且富有创意的语言表达模式。研究者常利用其大规模文本进行自回归或序列到序列模型的预训练,以提升模型在开放式文本生成任务中的流畅性和多样性。
解决学术问题
该数据集有效应对了创意文本生成研究中数据稀缺与质量参差的挑战。通过提供经过质量评分筛选的大规模叙事文本,它支持了长文本生成、故事连贯性建模以及风格迁移等前沿课题的探索。其标注的元数据如体裁、标签和评分,为分析文本特征与读者偏好之间的关联提供了实证基础,推动了计算叙事学与个性化内容生成领域的方法创新。
衍生相关工作
围绕该数据集,已衍生出多项聚焦于叙事生成的研究与实践。例如,部分工作利用其章节结构和元数据探索故事弧线的自动建模;另有研究结合质量评分机制优化生成文本的连贯性与吸引力。这些探索不仅深化了对创造性语言建模的理解,也为后续更大规模多模态叙事数据集的构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



