LightNovel5000
收藏魔搭社区2026-01-06 更新2025-04-26 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/LightNovel5000
下载链接
链接失效反馈官方服务:
资源简介:
# Light novels translated in Chinese - crawled from public websites that do not prohibit crawlers
# 脚盆轻小说汉化 - 从未禁止爬虫的公共网站爬取
----
### Version 1 (2025-05-03)
### 版本 1 (2025-05-03)
Contains around 1500 light novels, including PDF with illustration and txt text files.
* It may be a good source of data that can be used to train your stylish LLM.
* Kindly note that the author has partially clean the text BUT DOES NOT GUARANTEE that it is fully cleaned up.
* 包含约 1500 部轻小说,包括带插图的 PDF 和 txt 文本文件。
* 这可以是训练你的具有风格化的大语言模型 (LLM) 的良好数据来源。
* 请注意,作者已部分清理文本,但不保证已完全清理。
----
### File Structure
### 文件结构
* The things shown in the `Data Studio` is ONLY A VERY SMALL PART OF DATA available to be reviewed. Please download the archive to access full datasets.
* 在`Data Studio`中显示预览的内容只是可供查看的数据的一小部分。请下载存档以访问完整的数据集。
* In Version 1, we only provide around 1500 light novels, but we will update to 5000 in Version 2.
* 在版本 1 中,我们仅提供大约 1500 部轻小说,但我们将在最终在版本 2 中更新到 5000 部。
----
* `/passcode` Contains a file that shows the passcode to decipher the main text and pdf data archives.
* `/examples` Contains examples of pdf and txt files, for users to be famalier with the format of this dataset.
* `/pdf` Contains a series of encrypted indivudial novel pdfs.
* `/txt` Contains a series of encrypted indivudial novel txts.
* `/concat.txt` Contains the combined complete set of novels.
* `/index.csv` Contains the index-title mapping of the included novels.
* `/description.xlsx` Contains the index-title-description mapping of the included novels.
* `/passcode` 包含一个文件,显示用于解密正文和 PDF 数据档案的密码。
* `/examples` 包含 PDF 和 txt 文件的示例,以便用户熟悉此数据集的格式。
* `/pdf` 包含一系列加密的独立的小说 PDF。
* `/txt` 包含一系列加密的独立的小说 txt。
* `/concat.txt` 包含合并后的所有的小说。
* `/index.csv` 包含所收录小说的索引-标题映射。
* `/description.xlsx` 包含所收录小说的索引-标题-描述映射。
# 中文译制版轻小说——从允许爬虫的公开网站爬取
# 脚盆轻小说汉化——从允许爬虫的公共网站爬取
----
### 版本 1 (2025-05-03)
本数据集包含约1500部轻小说,涵盖带插图的PDF格式文件与纯文本txt文件。
* 它可作为训练风格化大语言模型(LLM)的优质数据来源。
* 请注意,数据集作者已对文本进行了部分清理,但不保证已完成全量清理。
----
### 文件结构
* 在`Data Studio`中展示的预览内容仅为可供查看的极小一部分数据集,请下载归档文件以获取完整数据集。
* 在版本1中,我们仅提供约1500部轻小说,后续版本2将更新至5000部。
* `/passcode` 目录包含一个文件,内含用于解密正文与PDF数据归档的密码。
* `/examples` 目录包含PDF与txt文件的示例,方便用户熟悉本数据集的格式。
* `/pdf` 目录包含一系列加密的单部小说PDF文件。
* `/txt` 目录包含一系列加密的单部小说txt文本文件。
* `/concat.txt` 包含合并后的全部小说文本。
* `/index.csv` 包含收录小说的索引-标题映射表。
* `/description.xlsx` 包含收录小说的索引-标题-描述映射表。
提供机构:
maas
创建时间:
2025-04-22
搜集汇总
数据集介绍

背景与挑战
背景概述
LightNovel5000是一个包含约1500部中译日文轻小说的数据集,提供PDF(带插图)和txt格式文件,数据来源于未禁止爬虫的公共网站。该数据集计划扩展至5000部,适用于训练风格化的大语言模型,但文本仅经过部分清理。
以上内容由遇见数据集搜集并总结生成



