novel_corpus

github2024-04-25 更新2024-05-31 收录

下载链接：

https://github.com/01miaom/novel_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文小说对话语料库，用于训练中文聊天模型，包含多轮对话数据，每轮对话使用空行分开，数据集包含多种书籍的对话内容。

A Chinese novel dialogue corpus designed for training Chinese conversational models. It includes multi-turn dialogue data, with each turn separated by a blank line. The dataset encompasses dialogue content from a variety of books.

创建时间：

2022-12-17

原始信息汇总

数据集概述

数据集名称

novel_corpus

数据集用途

用于训练中文聊天模型。

数据集内容

包含多轮对话数据，每轮对话之间使用空行分隔。数据集仅包括公版书籍，以规避版权风险。

数据集样本

早哇，早。我在这儿呢，在苹果树下面…… 你是谁？你很漂亮。我是一只狐狸。来和我一起玩吧，我很不快活…… 我不能和你一起玩，还没人驯养过我呢。噢！对不起。 ‘驯养’是什么意思？你一定不是这儿的人，你来寻找什么呢？我来找人，‘驯养’是什么意思？人哪，他们有枪，还打猎。讨厌极了！他们还养母鸡，这总算有点意思。你也找母鸡吗？不找，我找朋友。‘驯养’是什么意思？这是一件经常被忽略的事情，意思是‘建立感情联系’…… 建立感情联系？可不是，现在你对我来说，只不过是个小男孩，跟成千上万别的小男孩毫无两样。我不需要你。你也不需要我。我对你来说，也只不过是个狐狸，跟成千上万别的狐狸毫无两样。但是，你要是驯养了我，我俩就彼此都需要对方了。你对我来说是世界上独一无二的。我对你来说，也是世界上独一无二的…… 我有点明白了，有一朵花儿……我想她是驯养了我…… 有可能，这个地球上各色各样的事都有…… 哦！不是在地球上。在另一个星球上？对。在那个星球上有没有猎人呢？没有。哈，这很有意思！那么母鸡呢？没有。没有十全十美的事呵。我的生活很单调。我去捉鸡，人来捉我。母鸡全都长得一个模样，人也全都长得一个模样。所以我有点腻了。不过，要是你驯养我，我的生活就会变得充满阳光。我会辨认出一种和其他所有人都不同的脚步声。听见别的脚步声，我会往地底下钻，而你的脚步声，会像音乐一样，把我召唤到洞外。还有，你看！你看到那边的麦田了吗？我是不吃面包的。麦子对我来说毫无用处。我对麦田无动于衷。可悲就可悲在这儿！而你的头发是金黄色的。所以，一旦你驯养了我，事情就变得很美妙了！金黄色的麦子，会让我想起你。我会喜爱风儿吹拂麦浪的声音……

数据集包含书目

id	书名
1	傲慢与偏见
2	雾都孤儿
3	小王子
4	龙族
5	猫武士
6	1Q84
7	海边的卡夫卡
8	白夜行
9	流星之绊
10	盛夏的方程式
11	信
12	很高兴见到你
13	一座城池
14	猫蛊手记
15	言叶之庭
16	暗恋·橘生淮南
17	魔戒三部曲
18	哈利波特与阿兹卡班的囚徒
19	暮光之城
20	斗罗大陆
21	酒神
22	唐家三少作品全集
23	挪威的森林
24	哆啦A梦长篇语料29个

数据集更新与贡献

数据集正在更新中，用户可以通过提issue的方式添加新的语料。

搜集汇总

数据集介绍

构建方式

novel_corpus数据集的构建基于多部经典与现代中文小说，涵盖了广泛的主题和风格。为确保数据的合法性与开放性，该数据集仅包含公版书籍中的对话内容，并通过多轮对话的形式进行组织，每轮对话之间以空行分隔。这种结构化的对话形式为研究者提供了丰富的语料资源，特别适用于训练中文聊天模型。

使用方法

使用novel_corpus数据集时，研究者可以直接导入数据进行预处理，如分词、去除停用词等，以便于模型训练。由于数据集已按多轮对话的形式组织，研究者可以轻松提取对话序列，用于构建和优化聊天模型。此外，数据集的开源特性允许用户根据需求添加或修改语料，进一步丰富数据内容。

背景与挑战

背景概述

novel_corpus是一个专注于中文小说对话的语料库，旨在为中文聊天模型的训练提供丰富的资源。该数据集由多轮对话组成，每轮对话通过空行分隔，确保了语料的结构化和易用性。为了规避版权风险，数据集仅包含公版书籍的对话内容，涵盖了从经典文学到现代小说的广泛领域，如《傲慢与偏见》、《小王子》等。该数据集的创建不仅为自然语言处理领域提供了宝贵的资源，也为研究者们探索中文对话生成和理解提供了坚实的基础。

当前挑战

novel_corpus在构建过程中面临多个挑战。首先，如何从海量的小说文本中提取高质量的对话内容，确保其自然性和多样性，是一个复杂的问题。其次，由于数据集仅包含公版书籍，如何在不侵犯版权的前提下，尽可能丰富语料库的内容，也是一个重要的挑战。此外，对话数据的标注和清洗工作，尤其是处理多轮对话的上下文关系，需要耗费大量的人力和时间。最后，如何确保数据集的多样性，避免模型训练过程中出现偏见，也是研究者们需要考虑的问题。

常用场景

经典使用场景

novel_corpus数据集的经典使用场景主要集中在自然语言处理领域，特别是中文聊天模型的训练。该数据集通过收录多轮对话，能够有效模拟真实的中文对话环境，从而为模型提供丰富的语境和语言表达方式。研究者可以利用此数据集训练出更加智能和自然的中文对话系统，提升用户体验。

解决学术问题

novel_corpus数据集解决了中文自然语言处理领域中对话语料稀缺的问题。通过提供多轮对话数据，该数据集为研究者提供了丰富的语料资源，有助于深入研究中文对话系统的构建与优化。其意义在于推动了中文聊天模型的发展，为学术界提供了宝贵的研究材料，促进了相关技术的进步。

实际应用

在实际应用中，novel_corpus数据集可用于开发智能客服、虚拟助手等中文对话系统。这些系统能够通过学习数据集中的对话模式，提供更加自然和高效的交互体验。此外，该数据集还可用于教育领域的语言学习软件，帮助学习者提高中文对话能力，具有广泛的应用前景。

数据集最近研究