GuoFeng Webnovel Corpus|网络小说数据集|语言学数据集

github2024-05-21 更新2024-05-31 收录

网络小说

语言学

下载链接：

https://github.com/longyuewangdcu/GuoFeng-Webnovel

下载链接

链接失效反馈

资源简介：

GuoFeng Webnovel是一个公开版权、高质量、语篇级和多语言的网络小说语料库。其特点包括丰富的语言和文化现象、长范围上下文以及对人工通用智能的预期贡献。

GuoFeng Webnovel is a publicly accessible, high-quality, discourse-level, and multilingual web novel corpus. It is characterized by its rich linguistic and cultural phenomena, long-range contextual dependencies, and its anticipated contributions to Artificial General Intelligence (AGI).

创建时间：

2022-08-30

原始信息汇总

数据集概述

数据集名称

GuoFeng Webnovel: A Discourse-Level and Multilingual Corpus of Web Fiction

版权与许可

版权所有者：Tencent AI Lab 和 China Literature Ltd.
使用许可：CC BY 4.0，仅限非商业研究用途。
禁止事项：未经允许，不得修改或重新分发数据集。

数据集特点

丰富的语言和文化现象：文学文本包含比非文学文本更复杂的语言和文化知识。
长距离上下文：小说等文学作品的上下文比其他领域的文本更长。
人工通用智能：该数据集不仅推动机器翻译领域的现有研究，还启发大型语言模型的新研究。

数据集内容

覆盖类型：14种，包括幻想科学和浪漫等。
数据示例：从中文-英文集中抽样，展示丰富的语言现象。

数据集版本

V1：包含22,567个连续章节，来自179部网络小说，文档级别，具有跨句子对齐信息。
V2：包含约19K个连续章节，来自约120部网络小说，文档级别，无对齐信息。

数据集格式

V1：使用HTML格式，包含书籍和章节标签，内容按句子分割并手动对齐。
V2：使用文本文件格式，无标签和句子级别对齐信息。

数据集处理

原始文本为中文，由专业翻译人员翻译成其他语言。
数据处理包括自动和手动方法，确保章节和句子的对齐。

数据集下载

通过GitHub下载，需填写注册表单获取下载链接。

引用信息

使用该数据集需引用相关论文，并声明原始下载链接。

预训练模型

提供三种类型的预训练模型，包括Chinese-Llama-2-7B和RoBERTa等。

以上概述了GuoFeng Webnovel数据集的关键信息，包括其版权、特点、内容、版本、格式、处理方法、下载方式和引用要求。

AI搜集汇总

数据集介绍

构建方式

GuoFeng Webnovel Corpus的构建过程融合了自动与人工方法，确保数据的高质量与准确性。首先，通过双语书名匹配，将中文小说与对应的英文、德文和俄文翻译版本进行配对。随后，在每本书的章节层面，使用章节ID进行对齐。在句子层面，采用基于机器翻译的句子对齐器，确保句子顺序的一致性。最后，人工标注者对句子对齐结果进行审查和修正，以消除任何潜在的偏差或错误。

特点

GuoFeng Webnovel Corpus以其丰富的语言和文化现象、长距离上下文以及对人工通用智能的潜在贡献而著称。该数据集涵盖了14种不同的小说类型，包括科幻和浪漫等，提供了多语言的文学文本，特别适合于机器翻译和大型语言模型的研究。此外，数据集的版权由Tencent AI Lab和China Literature Limited严格保护，确保了数据使用的合法性和学术研究的正当性。

使用方法

使用GuoFeng Webnovel Corpus时，用户需先完成注册流程，并遵守CC-BY 4.0许可协议，仅限于非商业研究目的。数据集的格式包括书籍、章节和句子的层次结构，便于研究人员进行文档级别的分析。对于V1版本，数据提供了中英文之间的句子对齐信息，而V2版本则仅提供章节级别的平行数据。用户可以通过GitHub页面下载数据集，并可选择下载预训练模型以辅助研究。

背景与挑战

背景概述

GuoFeng Webnovel Corpus，由Tencent AI Lab与China Literature Ltd.联合创建，是一个高质量的多语言网络小说语料库。该数据集的核心研究问题在于捕捉文学文本中的复杂语言和文化现象，以及处理长篇文本的上下文关系。自2023年首次发布以来，GuoFeng Webnovel Corpus不仅推动了机器翻译领域的研究，还激发了大型语言模型在文学翻译中的应用探索。其丰富的语言和文化现象，以及长篇文本的特性，使其在人工智能和自然语言处理领域具有显著的影响力。

当前挑战

GuoFeng Webnovel Corpus在构建过程中面临多项挑战。首先，文学文本的复杂性要求数据集能够准确捕捉和表达多样的语言和文化现象。其次，长篇文本的处理需要高效的上下文理解和跨句对齐技术。此外，数据集的版权问题和使用限制增加了其管理和分发的复杂性。最后，多语言翻译中的准确性和一致性问题也是该数据集需要克服的重要挑战。

常用场景

经典使用场景

在文学翻译领域，GuoFeng Webnovel Corpus以其丰富的多语言文本和长篇上下文关系，成为研究机器翻译和大型语言模型的理想数据集。该数据集特别适用于跨语言文学作品的翻译研究，尤其是在处理复杂的文化和语言现象时，能够提供详尽的语料支持。通过该数据集，研究者可以探索如何更准确地捕捉和传达文学作品中的深层含义和文化背景，从而提升翻译质量。

实际应用

在实际应用中，GuoFeng Webnovel Corpus被广泛用于开发和优化文学翻译软件，帮助翻译人员更高效地处理多语言文学作品。此外，该数据集还被用于构建和训练大型语言模型，以提升其在文学文本理解和生成方面的能力。通过这些应用，GuoFeng Webnovel Corpus不仅提升了翻译质量，还促进了文学作品的跨文化传播和理解。

衍生相关工作

基于GuoFeng Webnovel Corpus，研究者们开发了多种先进的机器翻译模型和大型语言模型，如Chinese-Llama-2-7B和RoBERTa。这些模型在文学翻译和文本生成任务中表现出色，推动了相关领域的技术进步。此外，该数据集还激发了多项关于文学翻译和跨文化交流的研究，为学术界和工业界提供了宝贵的资源和灵感。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

World Bank - World Governance Indicators

世界银行的世界治理指标（World Governance Indicators, WGI）数据集提供了全球各国在六个治理维度上的评估数据，包括言论和问责、政治稳定和无暴力、政府效率、监管质量、法治以及腐败控制。这些指标基于多个来源的数据，旨在帮助政策制定者和研究人员了解和改善治理质量。

databank.worldbank.org 收录

ZuantuSet

ZuantuSet是一个包含超过71,000个中国历史视觉化和108,000个插图的数据集。该数据集由北京大学的一般人工智能国家重点实验室和智能科学技术学院通过半自动化的管道收集和提取历史书籍中的视觉化内容而构建。数据集涵盖了从公元前550年到1950年的中国历史视觉化作品。该数据集不仅揭示了历史中国视觉化的独特设计模式，还分析了其背后的历史和文化成因，为数字人文领域的研究提供了丰富的资源。

arXiv 收录