Douban_Conversation_Corpus
收藏魔搭社区2025-08-29 更新2025-03-01 收录
下载链接:
https://modelscope.cn/datasets/OpenDataLab/Douban_Conversation_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
displayName: Douban Conversation Corpus
labelTypes:
- Text
- Chinese Corpus
license:
- Unknown
mediaTypes:
- Text
paperUrl: https://arxiv.org/pdf/1612.01627v2.pdf
publishDate: "2017"
publishUrl: https://github.com/MarkWuNLP/MultiTurnResponseSelection
publisher:
- Beihang University
- Nankai University
- Microsoft Research
tags:
- Conversation
taskTypes:
- Visual Question Answering
- Dialogue Generation
---
# 数据集介绍
## 简介
我们发布豆瓣会话语料库,包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。豆瓣会话语料统计如下表所示。
火车
瓦尔
测试
会话响应对
1m
50k
10k
平均每个会话的积极响应
1
1
1.18
无情河童
不适用
不适用
0.41
每次会话的最小转数
3
3
3
每个会话的最大值
98
91
45
每次会话的平均转数
6.69
6.75
5.95
每个话语的平均字数
18.56
18.50
20.74
测试数据包含 1000 个对话上下文,对于每个上下文,我们创建 10 个响应作为候选。我们招募了三名标注员来判断候选人是否对会议做出了适当的回应。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大部分标签被视为最终决定。
据我们所知,这是第一个用于基于检索的聊天机器人的人工标记测试集。整个语料链接 https://www.dropbox.com/s/90t0qtji9ow20ca/DoubanConversaionCorpus.zip?dl=0
数据模板
标签 \t 对话话语(由 \t 分割)\t 响应
## 引文
```
@article{wu2016sequential,
title={Sequential matching network: A new architecture for multi-turn response selection in retrieval-based chatbots},
author={Wu, Yu and Wu, Wei and Xing, Chen and Zhou, Ming and Li, Zhoujun},
journal={arXiv preprint arXiv:1612.01627},
year={2016}
}
```
## Download dataset
:modelscope-code[]{type="git"}
displayName: 豆瓣会话语料库(Douban Conversation Corpus)
labelTypes:
- 文本(Text)
- 中文语料库(Chinese Corpus)
license:
- 未知(Unknown)
mediaTypes:
- 文本(Text)
paperUrl: https://arxiv.org/pdf/1612.01627v2.pdf
publishDate: "2017"
publishUrl: https://github.com/MarkWuNLP/MultiTurnResponseSelection
publisher:
- 北京航空航天大学
- 南开大学
- 微软研究院(Microsoft Research)
tags:
- 会话(Conversation)
taskTypes:
- 视觉问答(Visual Question Answering)
- 对话生成(Dialogue Generation)
---
# 数据集介绍
## 简介
本数据集为豆瓣会话语料库,包含训练数据集、开发集以及面向基于检索式聊天机器人的测试集。豆瓣会话语料的统计信息如下所示:
训练集
验证集
测试集
会话响应对
100万
5万
1万
平均每个会话的正向响应数
1
1
1.18
无情河童
不适用
不适用
0.41
单会话最小轮次
3
3
3
单会话最大轮次
98
91
45
单会话平均轮次
6.69
6.75
5.95
单语句平均字数
18.56
18.50
20.74
测试数据包含1000个对话上下文,针对每个上下文,我们构建了10个候选响应。我们招募三名标注人员对候选响应是否适配给定对话上下文进行评判。合格的响应需能够自然衔接上下文的对话内容。每一对上下文-响应组合将获得三个标注标签,以多数投票结果作为最终判定。
据我们所知,这是首个面向基于检索式聊天机器人的人工标注测试集。完整语料下载链接:https://www.dropbox.com/s/90t0qtji9ow20ca/DoubanConversaionCorpus.zip?dl=0
数据模板
标签 对话语句(以 分隔) 响应
## 引用
@article{wu2016sequential,
title={Sequential matching network: A new architecture for multi-turn response selection in retrieval-based chatbots},
author={Wu, Yu and Wu, Wei and Xing, Chen and Zhou, Ming and Li, Zhoujun},
journal={arXiv preprint arXiv:1612.01627},
year={2016}
}
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-05
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



