botp/RyokoAI_Syosetu711K|文本生成数据集|日本小说数据集

hugging_face2023-08-18 更新2024-03-04 收录

文本生成

日本小说

下载链接：

https://hf-mirror.com/datasets/botp/RyokoAI_Syosetu711K

下载链接

链接失效反馈

资源简介：

Syosetu711K是一个包含约711,700部小说的数据集，这些小说是从日本小说自出版网站“小説家になろう”在2023年3月26日至27日期间抓取的。数据集涵盖了网站上发布的大多数小说，无论其长度或质量如何，并包含元数据以便用户过滤和评估内容。

提供机构：

botp

原始信息汇总

数据集卡片：Syosetu711K

数据集描述

数据集名称： Syosetu711K
数据集概述： Syosetu711K是一个包含约711,700本从日本小说自出版网站“小説家になろう”（Lets Become a Novelist）在2023年3月26日至27日期间抓取的小说数据集。该数据集包含了网站上几乎所有的小说，无论其长度或质量如何，并包含元数据以便用户过滤和评估其内容。

支持的任务和排行榜

主要用途： 主要用于文本生成模型的无监督训练，但也可能适用于其他目的。
支持的任务：
- 文本分类
- 文本生成

语言

日语

数据集结构

数据实例

json { "text": "【小説タイトル】焼けて爛れる恋よりも、微睡む優しい愛が欲しい【Ｎコード】Ｎ５０２９ＩＤ【作者名】秋暁秋季【あらすじ】俺の彼女は物凄く気の多い人だった。お眼鏡に適う奴が居れば、瞳孔を蕩けさせる人だった。その癖照れ屋で、すぐに目を逸らす。な...", "meta": { "subset": "syosetu", "q": 0.6, "id": "N5029ID", "author": "秋暁秋季", "userid": 719797, "title": "焼けて爛れる恋よりも、微睡む優しい愛が欲しい", "length": 871, "points": 0, "lang": "ja", "chapters": 1, "keywords": ["気が多い", "浮気性", "無愛想", "照れる", "嫉妬", "好みではない", "クソデカ感情", "空気のような安心感"], "isr15": 0, "genre": 102, "biggenre": 1 } }

数据字段

text: 实际的小说文本，包含所有章节
meta: 小说的元数据
- subset: 数据集标签：syosetu
- lang: 数据集语言：ja（日语）
- id: 小说ID/ncode
- author: 作者名
- userid: 作者用户ID
- title: 小说标题
- length: 小说长度（字数）
- points: 全球点数（对应于Syosetu API中的global_point）
- q: q-score（基于points计算的质量分数）
- chapters: 章节数量（对应于Syosetu API中的general_all_no）
- keywords: 小说关键词数组（对应于Syosetu API中的keyword，按空格分割）
- isr15: 小说是否为R15+评级
- genre: 小说类型ID（可选，参见Syosetu API文档）
- biggenre: 小说大类型ID（可选，参见Syosetu API文档）
- isr18: 小说是否为R18+评级
- nocgenre: 小说类型ID（可选，仅在isr18为真时可用，参见Syosetu API文档）

Q-Score分布

0.00: 0 0.10: 0 0.20: 0 0.30: 0 0.40: 0 0.50: 213005 0.60: 331393 0.70: 101971 0.80: 63877 0.90: 1542 1.00: 2

数据分割

数据未进行分割。

数据集创建

数据来源

初始数据收集和规范化： 首先，使用Syosetuka ni Narou API收集所有小说的元数据到一个JSONL文件中。然后，创建一个仅包含小说“ncodes”或ID的次级文本文件，并分发到下载节点。接着，使用姐妹网站https://pdfnovels.net查询每个小说ID，并保存结果PDF以供后续处理。最后，使用pdftotext工具将PDF文件转换为文本文件，并进行清理，然后将文本文件和其他元数据转换为指定的数据字段模式，并将生成的JSON条目连接到Syosetu711K数据集中。

个人和敏感信息

数据集仅包含虚构作品，不包含任何个人身份信息（PII）。

使用数据的注意事项

数据集的社会影响

该数据集旨在帮助训练模型生成更有趣的日语内容，也可能适用于其他语言的模型。

偏见讨论

该数据集由不同作者的虚构作品组成，因此其内容将反映这些作者的偏见。此外，数据集包含NSFW材料且未经筛选，需注意刻板印象。

其他已知限制

无

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

DAT

DAT是一个统一的跨场景跨领域基准，用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景，以评估算法的跨场景和跨领域泛化能力，并具有高保真度的现实机器人动力学建模。

github 收录

NASA Battery Dataset

用于预测电池健康状态的数据集，由NASA提供。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站，旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书，如判决书、裁定书、调解书等，涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

RadDet

RadDet是一个包含11种雷达类别的数据集，包括6种新的低概率干扰（LPI）多相码（P1, P2, P3, P4, Px, Zadoff-Chu）和一种新的宽带调频连续波（FMCW）。数据集覆盖500 MHz频段，包含40,000个雷达帧，分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供：稀疏数据集（RadDet-1T）和密集数据集（RadDet-9T）。

github 收录