novel-dataset

github2024-04-01 更新2024-05-31 收录

下载链接：

https://github.com/shaido987/novel-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从novelupdates网站收集的翻译小说信息，涵盖八种不同原语言的小说，目前共有13,592本小说。数据集详细记录了每本小说的基本信息、出版信息、章节信息、发布信息、社区信息以及相关系列信息。

This dataset comprises information on translated novels collected from the novelupdates website, encompassing novels in eight different original languages, with a total of 13,592 novels currently included. The dataset meticulously records the basic information, publication details, chapter information, release information, community information, and related series information for each novel.

创建时间：

2017-09-24

原始信息汇总

数据集概述

数据集来源

数据集来源于Novelupdates网站（https://www.novelupdates.com）。

数据集内容

包含13,592本翻译成英文的小说。
原始语言包括中文、日文、韩文、马来文、菲律宾文、印尼文、高棉文和泰文。

数据集版本与更新

当前版本：0.1.3
最新更新日期：2022-10-18

数据集结构

数据集包含以下列：

General Information
- Novel ID
- Name
- Associated Names
- Original Language
- Author / Authors
- Genres
- Tags
Publishing Information
- Start Year
- Licensed
- Original Publisher
- English Publisher
Chapter Information
- Number of Chapters (original language)
- Completed (original language)
- Number of Chapters (translation)
- Completed (translation)
Release Information (translation)
- Release Frequency
- Activity Weekly Rank
- Activity Monthly Rank
- Activity All-time Rank
Community Information (translation)
- On Number of Reading Lists
- Reading List Monthly Rank
- Reading List All-time Rank
- Rating
- Rating Votes
Related Series Information
- Related Series IDs
- Recommended Series IDs
- Recommendation List IDs

搜集汇总

数据集介绍

构建方式

novel-dataset的构建基于NovelUpdates平台，该平台专注于翻译小说的信息收集。数据集通过自动化脚本从NovelUpdates网站抓取数据，涵盖了八种原语言（中文、日文、韩文、马来文、菲律宾文、印尼文、高棉文和泰文）的翻译英文小说。数据抓取过程确保了小说信息的完整性，包括基本信息、出版信息、章节信息、发布信息和社区信息等。最终，数据集包含了21,831部小说的详细数据，并通过版本控制保持更新。

特点

novel-dataset的特点在于其广泛覆盖了多种语言的翻译小说，提供了丰富的元数据信息。每部小说不仅包含基本信息如名称、作者、类型和标签，还详细记录了出版信息、章节数量、发布频率以及社区互动数据。此外，数据集还包含了小说之间的关联信息，如相关系列、推荐系列和推荐列表，为研究小说之间的关联性提供了便利。数据的多样性和全面性使其成为研究翻译小说领域的宝贵资源。

使用方法

使用novel-dataset时，研究者可以通过数据集中的列名快速定位所需信息。数据集以结构化的形式存储，便于进行数据分析和挖掘。研究者可以利用数据集中的小说ID进行特定小说的查询，或通过原语言、作者、类型等字段进行筛选。此外，数据集中的关联信息可以用于构建小说网络，分析小说之间的推荐关系。数据集的版本控制确保了数据的时效性，研究者可以通过更新日志获取最新数据。

背景与挑战

背景概述

novel-dataset数据集由novelupdates网站（https://www.novelupdates.com）提供，专注于收集和整理翻译成英文的小说信息。该数据集涵盖了来自八种原语言（中文、日文、韩文、马来西亚文、菲律宾文、印尼文、高棉文和泰文）的21,831部小说，首次发布于2024年7月10日，当前版本为0.1.4。数据集不仅包含每部小说的基本信息，如章节数量、排名等，还提供了小说之间的关联信息。这一数据集的创建为研究跨文化文学传播、翻译质量评估以及读者偏好分析提供了宝贵资源，极大地推动了文学研究和数字人文领域的发展。

当前挑战

novel-dataset在构建过程中面临多重挑战。首先，数据来源的多样性和复杂性要求对来自不同语言和文化背景的小说进行统一处理，确保数据的一致性和准确性。其次，翻译小说的动态更新特性使得数据集需要频繁维护和更新，以反映最新的翻译进度和读者反馈。此外，如何有效整合小说之间的关联信息，如推荐系列和推荐列表，也是一个技术难题。这些挑战不仅考验了数据采集和处理的效率，也对数据集的长期维护提出了更高要求。

常用场景

经典使用场景

在文学研究和跨文化交流领域，novel-dataset为研究者提供了一个丰富的资源库，用于分析翻译小说的流行趋势、读者偏好以及文化传播的影响。通过该数据集，学者可以深入探讨不同语言背景下的文学作品在全球范围内的接受度和影响力。

衍生相关工作

基于novel-dataset，研究者们开发了多种分析工具和模型，如翻译小说的流行度预测模型、跨文化接受度评估框架等。这些衍生工作不仅丰富了文学研究的方法论，也为相关领域的学术进展提供了有力支持。

数据集最近研究