botp/RyokoAI_Syosetu711K|文本生成数据集|日本小说数据集
收藏数据集卡片:Syosetu711K
数据集描述
- 数据集名称: Syosetu711K
- 数据集概述: Syosetu711K是一个包含约711,700本从日本小说自出版网站“小説家になろう”(Lets Become a Novelist)在2023年3月26日至27日期间抓取的小说数据集。该数据集包含了网站上几乎所有的小说,无论其长度或质量如何,并包含元数据以便用户过滤和评估其内容。
支持的任务和排行榜
- 主要用途: 主要用于文本生成模型的无监督训练,但也可能适用于其他目的。
- 支持的任务:
- 文本分类
- 文本生成
语言
- 日语
数据集结构
数据实例
json { "text": "【小説タイトル】 焼けて爛れる恋よりも、微睡む優しい愛が欲しい 【Nコード】 N5029ID 【作者名】 秋暁秋季 【あらすじ】 俺の彼女は物凄く気の多い人だった。 お眼鏡に適う奴が居れば、瞳孔を蕩けさせる人だった。 その癖照れ屋で、すぐに目を逸らす。 な...", "meta": { "subset": "syosetu", "q": 0.6, "id": "N5029ID", "author": "秋暁秋季", "userid": 719797, "title": "焼けて爛れる恋よりも、微睡む優しい愛が欲しい", "length": 871, "points": 0, "lang": "ja", "chapters": 1, "keywords": ["気が多い", "浮気性", "無愛想", "照れる", "嫉妬", "好みではない", "クソデカ感情", "空気のような安心感"], "isr15": 0, "genre": 102, "biggenre": 1 } }
数据字段
text
: 实际的小说文本,包含所有章节meta
: 小说的元数据subset
: 数据集标签:syosetu
lang
: 数据集语言:ja
(日语)id
: 小说ID/ncodeauthor
: 作者名userid
: 作者用户IDtitle
: 小说标题length
: 小说长度(字数)points
: 全球点数(对应于Syosetu API中的global_point
)q
: q-score(基于points
计算的质量分数)chapters
: 章节数量(对应于Syosetu API中的general_all_no
)keywords
: 小说关键词数组(对应于Syosetu API中的keyword
,按空格分割)isr15
: 小说是否为R15+评级genre
: 小说类型ID(可选,参见Syosetu API文档)biggenre
: 小说大类型ID(可选,参见Syosetu API文档)isr18
: 小说是否为R18+评级nocgenre
: 小说类型ID(可选,仅在isr18
为真时可用,参见Syosetu API文档)
Q-Score分布
0.00: 0 0.10: 0 0.20: 0 0.30: 0 0.40: 0 0.50: 213005 0.60: 331393 0.70: 101971 0.80: 63877 0.90: 1542 1.00: 2
数据分割
数据未进行分割。
数据集创建
数据来源
- 初始数据收集和规范化: 首先,使用Syosetuka ni Narou API收集所有小说的元数据到一个JSONL文件中。然后,创建一个仅包含小说“ncodes”或ID的次级文本文件,并分发到下载节点。接着,使用姐妹网站https://pdfnovels.net查询每个小说ID,并保存结果PDF以供后续处理。最后,使用
pdftotext
工具将PDF文件转换为文本文件,并进行清理,然后将文本文件和其他元数据转换为指定的数据字段模式,并将生成的JSON条目连接到Syosetu711K数据集中。
个人和敏感信息
数据集仅包含虚构作品,不包含任何个人身份信息(PII)。
使用数据的注意事项
数据集的社会影响
该数据集旨在帮助训练模型生成更有趣的日语内容,也可能适用于其他语言的模型。
偏见讨论
该数据集由不同作者的虚构作品组成,因此其内容将反映这些作者的偏见。此外,数据集包含NSFW材料且未经筛选,需注意刻板印象。
其他已知限制
无
DAT
DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。
github 收录
NASA Battery Dataset
用于预测电池健康状态的数据集,由NASA提供。
github 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录