Douban Conversaion Corpus

github2022-01-08 更新2024-05-31 收录

下载链接：

https://github.com/Aman-4-Real/OpenDomainDialogCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

来自豆瓣数据，常用。数据集包含1000组数据，每组数据由10个labeled context-response pair构成，10个数据标签可能均为0，可能具有多个（2-3）标签为1的数据。所有文本为已分词格式。

Sourced from Douban data, commonly used. The dataset comprises 1000 groups of data, each consisting of 10 labeled context-response pairs. Within each group, all 10 data labels may be 0, or there may be multiple (2-3) labels that are 1. All texts are in a segmented format.

创建时间：

2022-01-08

原始信息汇总

数据集概述

1. Douban Conversation Corpus

描述: 来自豆瓣数据，常用
类型: 多轮
格式: 包含1000组数据，每组数据由10个labeled context-response pair构成，文本为已分词格式
规模: 图片展示
年份: 2017
提出论文: Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-Based Chatbots. Yu Wu, Wei Wu, Chen Xing, Ming Zhou, Zhoujun Li. ACL 2017.

2. Noah NRM Data / STC@NTCIR13

描述: 来自微博，常用
类型: 单轮
格式: 训练集v1.0为excel表格，包含11535个query-response pair，需要自行对齐标签预处理
规模: 4,435,959 Pairs / post 219,905 / responses 4,308,211 / 平均每个post，20条response
年份: 2015
提出论文: Neural Responding Machine for Short-Text Conversation. Lifeng Shang, Zhengdong Lu, and Hang Li. ACL 2015.

3. STC Data

描述: 来自微博，常用
类型: 单轮
格式: post 和 response 的 id 相对应，需要自行预处理得到对应文本
规模:
- Retrieval_Repository: #posts 38,016 / #responses 618,104 / #original_pairs 618,104
- Labeled_Data: #posts 422 / #responses 12,402 / #labeled_pairs 12,402
年份: 2013
提出论文: A Dataset for Research on Short-Text Conversation. Hao Wang, Zhengdong Lu, Hang Li, Enhong Chen. EMNLP 2013.

4. LCCC

描述: 主要微博，混合
类型: 多轮
格式: json文件可以直接读取，需要自己构造正负例
规模: 图片展示
年份: 2020
提出论文: A large-scale chinese short-text conversation dataset. Wang Y, Ke P, Zheng Y, et al. NLPCC 2020.

5. PchatbotW

描述: 来自微博
类型: 单轮
格式: 50G的文本文件，包含 5,319,596 个 posts 和 139,448,339 个 responses，需要自己构造检索子数据集
规模: 图片展示
年份: 2020
提出论文: A large-scale chinese short-text conversation dataset. Wang Y, Ke P, Zheng Y, et al. NLPCC 2020.

6. RRS

描述: 根据 Restoration200K 数据集构建
类型: 多轮
格式: 1000个sessions，每个10个candidates包含1个正例9个负例，txt文件直接读取处理即可
规模: 图片展示
年份: 2021
提出论文: Exploring Dense Retrieval for Dialogue Response Selection[J]. Lan T, Cai D, Wang Y, et al. arXiv preprint arXiv:2110.06612, 2021.

7. 小黄鸡

描述: 原人人网项目语料
类型: 单轮
格式: 包含分词和未分词版本，需要预处理
规模: ~45w

8. 青云语料

描述: 来自聊天机器人交流群
类型: 单轮
格式: csv文件，post和resp用 | 分隔，需要预处理
规模: ~11w

9. 贴吧语料

描述: 来自贴吧回帖
类型: 多轮
格式: 文本文件，post和resp用分隔，包含305w个单轮，需要自己恢复成多轮和构造对应数据
规模: ~305w (单轮)

搜集汇总

数据集介绍

构建方式

Douban Conversaion Corpus数据集的构建基于豆瓣平台的用户对话数据，经过精心筛选和整理，形成了多轮对话的语料库。该数据集包含1000组数据，每组数据由10个标注的上下文-响应对构成，其中每个对可能被标记为0或1，以表示其相关性或质量。所有文本均已进行分词处理，便于直接用于模型训练和评估。

特点

Douban Conversaion Corpus的特点在于其多轮对话的结构，每组数据包含10个上下文-响应对，这使得它特别适合于研究多轮对话响应选择的任务。数据集中的标签系统允许研究者区分高质量和低质量的对话对，从而为模型训练提供了明确的指导。此外，所有文本均已分词，减少了预处理的工作量，使得研究者可以更专注于模型的设计和优化。

使用方法

使用Douban Conversaion Corpus时，研究者可以直接利用其已分词的文本数据进行模型训练和测试。数据集的结构允许进行多轮对话的模拟和评估，特别适合于开发基于检索的聊天机器人系统。通过分析标签为1的对话对，研究者可以训练模型以识别和生成更高质量的响应。此外，该数据集也可用于评估不同对话模型在多轮对话中的表现，为对话系统的研究提供了丰富的实验材料。

背景与挑战

背景概述

Douban Conversaion Corpus 数据集于2017年由Yu Wu等人提出，旨在解决基于检索的多轮对话响应选择问题。该数据集源自豆瓣平台，包含了丰富的多轮对话数据，广泛应用于中文开放域对话系统的研究。其核心研究问题在于如何通过序列匹配网络（Sequential Matching Network）提升多轮对话中响应选择的准确性。该数据集在自然语言处理领域具有重要影响力，特别是在对话系统和聊天机器人的研究中，为相关算法提供了宝贵的训练和测试资源。

当前挑战

Douban Conversaion Corpus 数据集在构建和应用过程中面临多重挑战。首先，多轮对话的复杂性使得模型需要具备更强的上下文理解能力，以准确捕捉对话中的语义关联。其次，数据集的标注质量直接影响模型的性能，如何确保标注的一致性和准确性是一个关键问题。此外，数据集的规模虽然较大，但在实际应用中，如何有效处理数据稀疏性和噪声问题，仍然是研究者需要克服的难题。最后，构建过程中需要处理大量的原始文本数据，如何高效地进行数据清洗和预处理，也是数据集构建中的一大挑战。

常用场景

经典使用场景

Douban Conversaion Corpus 数据集在自然语言处理领域中被广泛用于多轮对话系统的开发和评估。该数据集包含了来自豆瓣的多轮对话数据，每组数据由10个标注的上下文-响应对构成，适用于训练和测试基于检索的聊天机器人模型。其多轮对话的特性使得研究者能够深入探讨对话连贯性和上下文理解的问题。

衍生相关工作

基于 Douban Conversaion Corpus 数据集，研究者们提出了多种创新的对话模型。例如，Sequential Matching Network (SMN) 模型通过引入序列匹配机制，显著提升了多轮对话中的响应选择效果。此外，该数据集还催生了一系列关于对话连贯性、上下文理解的研究工作，推动了对话系统领域的进一步发展。

数据集最近研究