botp/RyokoAI_ScribbleHub17K
收藏数据集卡片:ScribbleHub17K
数据集描述
数据集概述
ScribbleHub17K是一个包含来自约17,500个系列、超过373,000章节的文本数据集,这些文本来自原创新故事分享网站Scribble Hub。
支持的任务和排行榜
该数据集主要用于无监督训练文本生成模型,但也可能对其他目的有用。
- 文本分类
- 文本生成
语言
- 英语
数据集结构
数据实例
json { "text": " 2082 Planet Earth the Fracture War, after a sudden fracture in our dimension unidentified beings with advance technology and u...", "meta": { "subset": "scribblehub", "series": "3811", "id": "3812", "q": 0.91, "title": "The First - Prologue- The Fracture War", "author": "RobotLove", "chapters": 1, "rating": 5, "rating_ct": 1, "genre": [ "Action", "Martial Arts", "Romance" ], "tags": [ "Kingdom Building", "Loyal Subordinates", "Male Protagonist", "Organized Crime", "Scheming" ] } } { "text": " For anyone that may see this, thanks for reading. Im just here to see if a story can spill out of my mind if just start writin...", "meta": { "subset": "scribblehub", "series": "586090", "id": "586099", "q": 0.82, "title": "Just writing to write…i guess? - I’m here now", "author": "BigOofStudios", "chapters": 1, "rating": 4.5, "rating_ct": 2, "genre": [ "Action", "Comedy" ], "tags": [] } }
数据字段
text: 实际章节文本meta: 章节和系列的元数据subset: 数据来源标签:scribblehubseries: 系列IDid: 章节IDlang: 始终为en(英语)q: 质量分数(q-score),范围从0.0(糟糕)到1.0(完美);任何分数> 0.5通常足够好title: 章节和系列标题,格式为<章节标题> - <系列标题>chapters: 系列中的总章节数rating: Scribble Hub评分,范围从0到5星rating_ct: 评分的数量author: 作者名称genre: 系列的Scribble Hub流派数组tags: 系列的标签数组
Q-Score分布
0.00: 0 0.10: 0 0.20: 0 0.30: 84 0.40: 718 0.50: 3775 0.60: 22300 0.70: 72581 0.80: 137982 0.90: 135800 1.00: 59
数据分割
未对数据进行分割。
数据集创建
策划理由
Scribble Hub是一个原创网络故事的家,相当于日本Syosetuka ni Narou的英语版本。因此,它是一个很好的来源,用于合理编写的创意内容。
源数据
初始数据收集和规范化
TODO
源语言生产者
每个小说的作者。
注释
注释过程
使用将在BigKnow2022 GitHub仓库中提供的脚本解析出标题、评分和其他元数据。
注释者
没有人工注释者。
个人和敏感信息
该数据集仅包含虚构作品,我们不认为它包含任何个人身份信息(PII)。
使用数据的考虑
数据集的社会影响
该数据集旨在对希望训练模型生成“更有趣”内容的人有用。它也可能对其他语言的模型有用。
偏见讨论
该数据集由不同作者的虚构作品组成。因此,该数据集的内容将反映这些作者的偏见。此外,该数据集包含NSFW材料且未经过滤。注意刻板印象。
其他已知限制
N/A
附加信息
数据集策展人
Ronsor Labs
许可信息
Apache 2.0,对于所有部分,Ronsor Labs或Ryoko AI Production Committee可被视为作者。所有其他材料根据合理使用原则分发。
引用信息
@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }
贡献
感谢@ronsor (GH)收集此数据集。




