GuoFeng Webnovel Corpus

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/longyuewangdcu/GuoFeng-Webnovel

下载链接

链接失效反馈

官方服务：

资源简介：

GuoFeng Webnovel是一个公开版权、高质量、语篇级和多语言的网络小说语料库。其特点包括丰富的语言和文化现象、长范围上下文以及对人工通用智能的预期贡献。

GuoFeng Webnovel is a publicly accessible, high-quality, discourse-level, and multilingual web novel corpus. It is characterized by its rich linguistic and cultural phenomena, long-range contextual dependencies, and its anticipated contributions to Artificial General Intelligence (AGI).

创建时间：

2022-08-30

原始信息汇总

数据集概述

数据集名称

GuoFeng Webnovel: A Discourse-Level and Multilingual Corpus of Web Fiction

版权与许可

版权所有者：Tencent AI Lab 和 China Literature Ltd.
使用许可：CC BY 4.0，仅限非商业研究用途。
禁止事项：未经允许，不得修改或重新分发数据集。

数据集特点

丰富的语言和文化现象：文学文本包含比非文学文本更复杂的语言和文化知识。
长距离上下文：小说等文学作品的上下文比其他领域的文本更长。
人工通用智能：该数据集不仅推动机器翻译领域的现有研究，还启发大型语言模型的新研究。

数据集内容

覆盖类型：14种，包括幻想科学和浪漫等。
数据示例：从中文-英文集中抽样，展示丰富的语言现象。

数据集版本

V1：包含22,567个连续章节，来自179部网络小说，文档级别，具有跨句子对齐信息。
V2：包含约19K个连续章节，来自约120部网络小说，文档级别，无对齐信息。

数据集格式

V1：使用HTML格式，包含书籍和章节标签，内容按句子分割并手动对齐。
V2：使用文本文件格式，无标签和句子级别对齐信息。

数据集处理

原始文本为中文，由专业翻译人员翻译成其他语言。
数据处理包括自动和手动方法，确保章节和句子的对齐。

数据集下载

通过GitHub下载，需填写注册表单获取下载链接。

引用信息

使用该数据集需引用相关论文，并声明原始下载链接。

预训练模型

提供三种类型的预训练模型，包括Chinese-Llama-2-7B和RoBERTa等。

以上概述了GuoFeng Webnovel数据集的关键信息，包括其版权、特点、内容、版本、格式、处理方法、下载方式和引用要求。

搜集汇总

数据集介绍

构建方式

GuoFeng Webnovel Corpus的构建过程融合了自动与人工方法，确保数据的高质量与准确性。首先，通过双语书名匹配，将中文小说与对应的英文、德文和俄文翻译版本进行配对。随后，在每本书的章节层面，使用章节ID进行对齐。在句子层面，采用基于机器翻译的句子对齐器，确保句子顺序的一致性。最后，人工标注者对句子对齐结果进行审查和修正，以消除任何潜在的偏差或错误。

特点

GuoFeng Webnovel Corpus以其丰富的语言和文化现象、长距离上下文以及对人工通用智能的潜在贡献而著称。该数据集涵盖了14种不同的小说类型，包括科幻和浪漫等，提供了多语言的文学文本，特别适合于机器翻译和大型语言模型的研究。此外，数据集的版权由Tencent AI Lab和China Literature Limited严格保护，确保了数据使用的合法性和学术研究的正当性。

使用方法

使用GuoFeng Webnovel Corpus时，用户需先完成注册流程，并遵守CC-BY 4.0许可协议，仅限于非商业研究目的。数据集的格式包括书籍、章节和句子的层次结构，便于研究人员进行文档级别的分析。对于V1版本，数据提供了中英文之间的句子对齐信息，而V2版本则仅提供章节级别的平行数据。用户可以通过GitHub页面下载数据集，并可选择下载预训练模型以辅助研究。

背景与挑战

背景概述

GuoFeng Webnovel Corpus，由Tencent AI Lab与China Literature Ltd.联合创建，是一个高质量的多语言网络小说语料库。该数据集的核心研究问题在于捕捉文学文本中的复杂语言和文化现象，以及处理长篇文本的上下文关系。自2023年首次发布以来，GuoFeng Webnovel Corpus不仅推动了机器翻译领域的研究，还激发了大型语言模型在文学翻译中的应用探索。其丰富的语言和文化现象，以及长篇文本的特性，使其在人工智能和自然语言处理领域具有显著的影响力。

当前挑战

GuoFeng Webnovel Corpus在构建过程中面临多项挑战。首先，文学文本的复杂性要求数据集能够准确捕捉和表达多样的语言和文化现象。其次，长篇文本的处理需要高效的上下文理解和跨句对齐技术。此外，数据集的版权问题和使用限制增加了其管理和分发的复杂性。最后，多语言翻译中的准确性和一致性问题也是该数据集需要克服的重要挑战。

常用场景

经典使用场景

在文学翻译领域，GuoFeng Webnovel Corpus以其丰富的多语言文本和长篇上下文关系，成为研究机器翻译和大型语言模型的理想数据集。该数据集特别适用于跨语言文学作品的翻译研究，尤其是在处理复杂的文化和语言现象时，能够提供详尽的语料支持。通过该数据集，研究者可以探索如何更准确地捕捉和传达文学作品中的深层含义和文化背景，从而提升翻译质量。

实际应用

在实际应用中，GuoFeng Webnovel Corpus被广泛用于开发和优化文学翻译软件，帮助翻译人员更高效地处理多语言文学作品。此外，该数据集还被用于构建和训练大型语言模型，以提升其在文学文本理解和生成方面的能力。通过这些应用，GuoFeng Webnovel Corpus不仅提升了翻译质量，还促进了文学作品的跨文化传播和理解。

衍生相关工作

基于GuoFeng Webnovel Corpus，研究者们开发了多种先进的机器翻译模型和大型语言模型，如Chinese-Llama-2-7B和RoBERTa。这些模型在文学翻译和文本生成任务中表现出色，推动了相关领域的技术进步。此外，该数据集还激发了多项关于文学翻译和跨文化交流的研究，为学术界和工业界提供了宝贵的资源和灵感。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集