novel-dataset

github2024-04-01 更新2024-05-31 收录

下载链接：

https://github.com/shaido987/novel-dataset-scraper

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从novelupdates网站收集的翻译小说信息，涵盖了八种不同原语言的小说，目前共有13,592部小说。数据集详细记录了每部小说的基本信息、出版信息、章节信息、发布信息、社区信息以及相关系列信息。

This dataset comprises information on translated novels collected from the novelupdates website, encompassing novels in eight different original languages, with a total of 13,592 novels currently included. The dataset meticulously records the basic information, publication details, chapter information, release information, community information, and related series information for each novel.

创建时间：

2017-09-24

原始信息汇总

数据集概述

数据集来源

数据集来源于Novelupdates网站（https://www.novelupdates.com），包含翻译小说的信息。

数据集内容

包含13,592本翻译自八种不同原语言（中文、日文、韩文、马来文、菲律宾文、印尼文、高棉文、泰文）的英文小说。

数据集版本与更新

当前版本：0.1.3
最新更新日期：2022-10-18

数据集结构

数据集包含以下列信息：

一般信息

Novel ID
Name
Associated Names
Original Language
Author / Authors
Genres
Tags

出版信息

Start Year
Licensed
Original Publisher
English Publisher

章节信息

Number of Chapters (original language)
Completed (original language)
Number of Chapters (translation)
Completed (translation)

发布信息（翻译）

Release Frequency
Activity Weekly Rank
Activity Monthly Rank
Activity All-time Rank

社区信息（翻译）

On Number of Reading Lists
Reading List Monthly Rank
Reading List All-time Rank
Rating
Rating Votes

相关系列信息

Related Series IDs
Recommended Series IDs
Recommendation List IDs

搜集汇总

数据集介绍

构建方式

novel-dataset数据集通过从novelupdates网站（https://www.novelupdates.com）提取信息构建而成，涵盖了从八种原语言（中文、日文、韩文、马来西亚文、菲律宾文、印尼文、高棉文和泰文）翻译成英文的小说。数据集目前包含21,831部小说，每部小说的统计信息如章节数量、排名以及与其他小说的关联关系均被详细记录。数据集的构建过程涉及对小说基本信息、出版信息、章节信息、发布信息和社区信息的系统化整理与分类。

特点

novel-dataset数据集的特点在于其全面性和多样性。它不仅包含了小说的基本信息，如名称、作者、语言和类型，还详细记录了出版信息、章节信息、发布频率和社区互动数据。此外，数据集还提供了小说之间的关联信息，如相关系列、推荐系列和推荐列表，为研究小说之间的关联性和读者偏好提供了丰富的数据支持。数据集的多样性和多层次信息使其成为研究翻译小说及其读者社区的理想资源。

使用方法

使用novel-dataset数据集时，研究者可以通过其丰富的字段信息进行多维度的分析。例如，通过分析小说的发布频率和社区排名，可以研究翻译小说的流行趋势和读者偏好；通过比较不同语言小说的章节数量和完成情况，可以探讨翻译效率和质量；通过挖掘小说之间的关联信息，可以揭示小说推荐系统的运作机制。数据集的结构化设计使得其易于导入到数据分析工具中，如Pandas或SQL数据库，便于进行进一步的数据挖掘和可视化分析。

背景与挑战

背景概述

novel-dataset数据集由novelupdates网站（https://www.novelupdates.com）提取而来，专注于收录翻译成英文的小说信息。该数据集涵盖了来自八种原语言（中文、日文、韩文、马来西亚文、菲律宾文、印尼文、高棉文和泰文）的21,831部小说，提供了包括章节数量、排名等个体小说统计信息，以及与其他小说的关联数据。数据集由匿名研究者或团队于2024年7月10日更新至0.1.4版本，旨在为文学翻译研究、跨文化传播分析以及推荐系统开发提供数据支持。其多维度信息结构为研究小说翻译的传播规律、读者偏好及市场趋势提供了重要基础。

当前挑战

novel-dataset数据集在构建与应用中面临多重挑战。从领域问题来看，小说翻译研究涉及跨语言、跨文化的复杂语境，如何准确捕捉翻译作品的原语言特征及其在目标语言中的适应性是一大难题。此外，数据集中包含的小说排名、阅读列表等社区信息具有动态性，如何确保数据的时效性与一致性成为关键。在构建过程中，数据采集面临网站结构变化、数据格式不统一等技术障碍，同时还需处理多语言文本的标准化与清洗问题。如何有效整合小说之间的关联信息，并确保其准确性与完整性，也是数据集构建中的一大挑战。

常用场景

经典使用场景

在跨文化文学研究领域，novel-dataset为学者提供了一个丰富的资源库，用于分析不同语言背景下的文学作品翻译情况。通过该数据集，研究者能够深入探讨翻译文学的市场接受度、读者偏好以及翻译策略的多样性。

实际应用

在实际应用中，novel-dataset被广泛用于文学出版行业的市场分析，帮助出版商识别潜在的畅销书和热门题材。此外，该数据集还被应用于教育领域，作为教学资源，帮助学生理解翻译文学的文化价值和市场动态。

衍生相关工作

基于novel-dataset，学者们已经开展了多项研究，包括翻译文学的读者行为分析、跨文化传播效果评估以及翻译策略的比较研究。这些研究不仅丰富了跨文化文学理论，还为翻译实践提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集