five

LightNovel5000

收藏
魔搭社区2026-01-06 更新2025-04-26 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/LightNovel5000
下载链接
链接失效反馈
官方服务:
资源简介:
# Light novels translated in Chinese - crawled from public websites that do not prohibit crawlers # 脚盆轻小说汉化 - 从未禁止爬虫的公共网站爬取 ---- ### Version 1 (2025-05-03) ### 版本 1 (2025-05-03) Contains around 1500 light novels, including PDF with illustration and txt text files. * It may be a good source of data that can be used to train your stylish LLM. * Kindly note that the author has partially clean the text BUT DOES NOT GUARANTEE that it is fully cleaned up. * 包含约 1500 部轻小说,包括带插图的 PDF 和 txt 文本文件。 * 这可以是训练你的具有风格化的大语言模型 (LLM) 的良好数据来源。 * 请注意,作者已部分清理文本,但不保证已完全清理。 ---- ### File Structure ### 文件结构 * The things shown in the `Data Studio` is ONLY A VERY SMALL PART OF DATA available to be reviewed. Please download the archive to access full datasets. * 在`Data Studio`中显示预览的内容只是可供查看的数据的一小部分。请下载存档以访问完整的数据集。 * In Version 1, we only provide around 1500 light novels, but we will update to 5000 in Version 2. * 在版本 1 中,我们仅提供大约 1500 部轻小说,但我们将在最终在版本 2 中更新到 5000 部。 ---- * `/passcode` Contains a file that shows the passcode to decipher the main text and pdf data archives. * `/examples` Contains examples of pdf and txt files, for users to be famalier with the format of this dataset. * `/pdf` Contains a series of encrypted indivudial novel pdfs. * `/txt` Contains a series of encrypted indivudial novel txts. * `/concat.txt` Contains the combined complete set of novels. * `/index.csv` Contains the index-title mapping of the included novels. * `/description.xlsx` Contains the index-title-description mapping of the included novels. * `/passcode` 包含一个文件,显示用于解密正文和 PDF 数据档案的密码。 * `/examples` 包含 PDF 和 txt 文件的示例,以便用户熟悉此数据集的格式。 * `/pdf` 包含一系列加密的独立的小说 PDF。 * `/txt` 包含一系列加密的独立的小说 txt。 * `/concat.txt` 包含合并后的所有的小说。 * `/index.csv` 包含所收录小说的索引-标题映射。 * `/description.xlsx` 包含所收录小说的索引-标题-描述映射。

# 中文译制版轻小说——从允许爬虫的公开网站爬取 # 脚盆轻小说汉化——从允许爬虫的公共网站爬取 ---- ### 版本 1 (2025-05-03) 本数据集包含约1500部轻小说,涵盖带插图的PDF格式文件与纯文本txt文件。 * 它可作为训练风格化大语言模型(LLM)的优质数据来源。 * 请注意,数据集作者已对文本进行了部分清理,但不保证已完成全量清理。 ---- ### 文件结构 * 在`Data Studio`中展示的预览内容仅为可供查看的极小一部分数据集,请下载归档文件以获取完整数据集。 * 在版本1中,我们仅提供约1500部轻小说,后续版本2将更新至5000部。 * `/passcode` 目录包含一个文件,内含用于解密正文与PDF数据归档的密码。 * `/examples` 目录包含PDF与txt文件的示例,方便用户熟悉本数据集的格式。 * `/pdf` 目录包含一系列加密的单部小说PDF文件。 * `/txt` 目录包含一系列加密的单部小说txt文本文件。 * `/concat.txt` 包含合并后的全部小说文本。 * `/index.csv` 包含收录小说的索引-标题映射表。 * `/description.xlsx` 包含收录小说的索引-标题-描述映射表。
提供机构:
maas
创建时间:
2025-04-22
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LightNovel5000是一个包含约1500部中译日文轻小说的数据集,提供PDF(带插图)和txt格式文件,数据来源于未禁止爬虫的公共网站。该数据集计划扩展至5000部,适用于训练风格化的大语言模型,但文本仅经过部分清理。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作