Douban Conversation Corpus
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Douban_Conversation_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
我们发布豆瓣会话语料库,包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。豆瓣会话语料统计如下表所示。
火车
瓦尔
测试
会话响应对
1m
50k
10k
平均每个会话的积极响应
1
1
1.18
无情河童
不适用
不适用
0.41
每次会话的最小转数
3
3
3
每个会话的最大值
98
91
45
每次会话的平均转数
6.69
6.75
5.95
每个话语的平均字数
18.56
18.50
20.74
测试数据包含 1000 个对话上下文,对于每个上下文,我们创建 10 个响应作为候选。我们招募了三名标注员来判断候选人是否对会议做出了适当的回应。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大部分标签被视为最终决定。
据我们所知,这是第一个用于基于检索的聊天机器人的人工标记测试集。整个语料链接 https://www.dropbox.com/s/90t0qtji9ow20ca/DoubanConversaionCorpus.zip?dl=0
数据模板
标签 \t 对话话语(由 \t 分割)\t 响应
提供机构:
OpenDataLab
创建时间:
2022-05-30



