botp/RyokoAI_ScribbleHub17K

Name: botp/RyokoAI_ScribbleHub17K
Creator: botp
Published: 2023-08-18 01:33:10
License: 暂无描述

Hugging Face2023-08-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/botp/RyokoAI_ScribbleHub17K

下载链接

链接失效反馈

官方服务：

资源简介：

ScribbleHub17K数据集包含来自Scribble Hub网站的超过373,000章节的文本，涵盖了大约17,500个系列。这些数据主要用于文本生成模型的非监督训练，但也可能适用于其他用途，如文本分类。数据集的结构包括每个章节的文本和元数据，如系列ID、章节ID、质量评分、标题、作者、章节数、评分、评分次数、类型和标签。数据集的语言为英语，且未进行数据分割。数据集的创建基于Scribble Hub网站上的原创故事，这些故事被认为是创作内容的良好来源。数据集的使用需注意可能包含的偏见和NSFW内容。

The ScribbleHub17K dataset contains over 373,000 chapter texts sourced from the Scribble Hub website, covering approximately 17,500 series. This dataset is primarily designed for unsupervised training of text generation models, and can also be adapted for other applications such as text classification. The dataset structure comprises the text of each chapter along with metadata including series ID, chapter ID, quality rating, title, author, chapter count, rating, number of ratings, genre, and tags. The dataset is in English, and no data splitting has been conducted. It is built upon original stories published on the Scribble Hub website, which are regarded as high-quality sources of creative content. Users are advised to exercise caution when utilizing this dataset, as it may contain potential biases and NSFW content.

提供机构：

botp

原始信息汇总

数据集卡片：ScribbleHub17K

数据集描述

数据集概述

ScribbleHub17K是一个包含来自约17,500个系列、超过373,000章节的文本数据集，这些文本来自原创新故事分享网站Scribble Hub。

支持的任务和排行榜

该数据集主要用于无监督训练文本生成模型，但也可能对其他目的有用。

文本分类
文本生成

语言

英语

数据集结构

数据实例

json { "text": " 2082 Planet Earth the Fracture War, after a sudden fracture in our dimension unidentified beings with advance technology and u...", "meta": { "subset": "scribblehub", "series": "3811", "id": "3812", "q": 0.91, "title": "The First - Prologue- The Fracture War", "author": "RobotLove", "chapters": 1, "rating": 5, "rating_ct": 1, "genre": [ "Action", "Martial Arts", "Romance" ], "tags": [ "Kingdom Building", "Loyal Subordinates", "Male Protagonist", "Organized Crime", "Scheming" ] } } { "text": " For anyone that may see this, thanks for reading. Im just here to see if a story can spill out of my mind if just start writin...", "meta": { "subset": "scribblehub", "series": "586090", "id": "586099", "q": 0.82, "title": "Just writing to write…i guess? - I’m here now", "author": "BigOofStudios", "chapters": 1, "rating": 4.5, "rating_ct": 2, "genre": [ "Action", "Comedy" ], "tags": [] } }

数据字段

text: 实际章节文本
meta: 章节和系列的元数据
- subset: 数据来源标签：scribblehub
- series: 系列ID
- id: 章节ID
- lang: 始终为en（英语）
- q: 质量分数（q-score），范围从0.0（糟糕）到1.0（完美）；任何分数> 0.5通常足够好
- title: 章节和系列标题，格式为<章节标题> - <系列标题>
- chapters: 系列中的总章节数
- rating: Scribble Hub评分，范围从0到5星
- rating_ct: 评分的数量
- author: 作者名称
- genre: 系列的Scribble Hub流派数组
- tags: 系列的标签数组

Q-Score分布

0.00: 0 0.10: 0 0.20: 0 0.30: 84 0.40: 718 0.50: 3775 0.60: 22300 0.70: 72581 0.80: 137982 0.90: 135800 1.00: 59

数据分割

未对数据进行分割。

数据集创建

策划理由

Scribble Hub是一个原创网络故事的家，相当于日本Syosetuka ni Narou的英语版本。因此，它是一个很好的来源，用于合理编写的创意内容。

源数据

初始数据收集和规范化

TODO

源语言生产者

每个小说的作者。

注释

注释过程

使用将在BigKnow2022 GitHub仓库中提供的脚本解析出标题、评分和其他元数据。

注释者

没有人工注释者。

个人和敏感信息

该数据集仅包含虚构作品，我们不认为它包含任何个人身份信息（PII）。

使用数据的考虑

数据集的社会影响

该数据集旨在对希望训练模型生成“更有趣”内容的人有用。它也可能对其他语言的模型有用。

偏见讨论

该数据集由不同作者的虚构作品组成。因此，该数据集的内容将反映这些作者的偏见。此外，该数据集包含NSFW材料且未经过滤。注意刻板印象。

其他已知限制

N/A

附加信息

数据集策展人

Ronsor Labs

许可信息

Apache 2.0，对于所有部分，Ronsor Labs或Ryoko AI Production Committee可被视为作者。所有其他材料根据合理使用原则分发。

引用信息

@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }

贡献

感谢@ronsor (GH)收集此数据集。

搜集汇总

数据集介绍

构建方式

ScribbleHub17K数据集是由RyokoAI团队构建的，该数据集汇集了373,000多个章节，涵盖了大约17,500个系列，这些内容均源自Scribble Hub这一原创故事分享平台。数据集的构建主要依赖于自动化脚本对标题、评分等元数据的解析，并保留了原始作品的质量评分，以供后续模型训练时参考。

特点

该数据集的特点在于其丰富的文本内容，适用于文本生成模型的非监督训练，同时也可用于文本分类等任务。数据集以英文为主，涵盖了从0.0到1.0的质量评分分布，保证了不同质量层次的内容都能被包含。此外，数据集未经过滤，包含了NSFW内容，反映了作者们的偏见和多样性。

使用方法

用户在使用ScribbleHub17K数据集时，可以直接访问其GitHub存储库进行数据的下载和利用。数据以JSON格式存储，包含了文本内容和相应的元数据。用户可以根据自身的需求，对数据进行相应的预处理和模型训练，以实现文本生成、文本分类等任务。需要注意的是，使用该数据集时应遵守Apache 2.0许可协议，并注意避免敏感内容的处理问题。

背景与挑战

背景概述

ScribbleHub17K数据集，由Ronsor Labs策划，汇集了来自Scribble Hub网站的17,500个系列、373,000个章节的文本内容。该数据集创建于BigKnow2022项目背景下，旨在为文本生成模型提供无监督训练资源，同时也可用于其他文本处理任务。作为一个以英文为主的小说文本数据集，ScribbleHub17K在自然语言处理领域，尤其是在文本生成和文本分类任务中，具有重要的研究价值和应用潜力。

当前挑战

该数据集的构建过程中面临的挑战主要包括数据的质量控制和内容的多样性平衡。首先，数据质量评分系统（q-score）的设定与执行需确保文本质量符合研究需求；其次，数据集中的内容涉及多种题材和风格，如何保持其多样性的同时，避免包含不当或敏感内容，是数据预处理的一大挑战。此外，数据集在反映作者偏见和包含NSFW内容方面并未进行过滤，这为使用该数据集的研究工作带来了额外的挑战，如如何公正、客观地处理和利用这些内容。

常用场景

经典使用场景

在文本生成模型的预训练领域，ScribbleHub17K数据集因其包含丰富多样的原创故事内容，成为一项宝贵的资源。该数据集被广泛用于训练模型以生成更具娱乐性的文本，从而提升模型在故事创作与文本分类任务上的表现。

衍生相关工作

基于ScribbleHub17K数据集，研究者们开展了一系列相关工作，如构建更高效的文本生成模型、探索作者创作模式、分析读者行为等，这些研究进一步扩展了该数据集的应用范围，并促进了自然语言处理领域的发展。

数据集最近研究