Douban_Conversation_Corpus

Name: Douban_Conversation_Corpus
Creator: maas
Published: 2025-08-29 10:24:58
License: 暂无描述

魔搭社区2025-08-29 更新2025-03-01 收录

下载链接：

https://modelscope.cn/datasets/OpenDataLab/Douban_Conversation_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

displayName: Douban Conversation Corpus labelTypes: - Text - Chinese Corpus license: - Unknown mediaTypes: - Text paperUrl: https://arxiv.org/pdf/1612.01627v2.pdf publishDate: "2017" publishUrl: https://github.com/MarkWuNLP/MultiTurnResponseSelection publisher: - Beihang University - Nankai University - Microsoft Research tags: - Conversation taskTypes: - Visual Question Answering - Dialogue Generation --- # 数据集介绍 ## 简介我们发布豆瓣会话语料库，包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。豆瓣会话语料统计如下表所示。火车瓦尔测试会话响应对 1m 50k 10k 平均每个会话的积极响应 1 1 1.18 无情河童不适用不适用 0.41 每次会话的最小转数 3 3 3 每个会话的最大值 98 91 45 每次会话的平均转数 6.69 6.75 5.95 每个话语的平均字数 18.56 18.50 20.74 测试数据包含 1000 个对话上下文，对于每个上下文，我们创建 10 个响应作为候选。我们招募了三名标注员来判断候选人是否对会议做出了适当的回应。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签，大部分标签被视为最终决定。据我们所知，这是第一个用于基于检索的聊天机器人的人工标记测试集。整个语料链接 https://www.dropbox.com/s/90t0qtji9ow20ca/DoubanConversaionCorpus.zip?dl=0 数据模板标签 \t 对话话语（由 \t 分割）\t 响应 ## 引文 ``` @article{wu2016sequential, title={Sequential matching network: A new architecture for multi-turn response selection in retrieval-based chatbots}, author={Wu, Yu and Wu, Wei and Xing, Chen and Zhou, Ming and Li, Zhoujun}, journal={arXiv preprint arXiv:1612.01627}, year={2016} } ``` ## Download dataset :modelscope-code[]{type="git"}

displayName: 豆瓣会话语料库（Douban Conversation Corpus） labelTypes: - 文本（Text） - 中文语料库（Chinese Corpus） license: - 未知（Unknown） mediaTypes: - 文本（Text） paperUrl: https://arxiv.org/pdf/1612.01627v2.pdf publishDate: "2017" publishUrl: https://github.com/MarkWuNLP/MultiTurnResponseSelection publisher: - 北京航空航天大学 - 南开大学 - 微软研究院（Microsoft Research） tags: - 会话（Conversation） taskTypes: - 视觉问答（Visual Question Answering） - 对话生成（Dialogue Generation） --- # 数据集介绍 ## 简介本数据集为豆瓣会话语料库，包含训练数据集、开发集以及面向基于检索式聊天机器人的测试集。豆瓣会话语料的统计信息如下所示：训练集验证集测试集会话响应对 100万 5万 1万平均每个会话的正向响应数 1 1 1.18 无情河童不适用不适用 0.41 单会话最小轮次 3 3 3 单会话最大轮次 98 91 45 单会话平均轮次 6.69 6.75 5.95 单语句平均字数 18.56 18.50 20.74 测试数据包含1000个对话上下文，针对每个上下文，我们构建了10个候选响应。我们招募三名标注人员对候选响应是否适配给定对话上下文进行评判。合格的响应需能够自然衔接上下文的对话内容。每一对上下文-响应组合将获得三个标注标签，以多数投票结果作为最终判定。据我们所知，这是首个面向基于检索式聊天机器人的人工标注测试集。完整语料下载链接：https://www.dropbox.com/s/90t0qtji9ow20ca/DoubanConversaionCorpus.zip?dl=0 数据模板标签对话语句（以分隔）响应 ## 引用 @article{wu2016sequential, title={Sequential matching network: A new architecture for multi-turn response selection in retrieval-based chatbots}, author={Wu, Yu and Wu, Wei and Xing, Chen and Zhou, Ming and Li, Zhoujun}, journal={arXiv preprint arXiv:1612.01627}, year={2016} } ## 数据集下载 :modelscope-code[]{type="git"}

提供机构：

maas

创建时间：

2024-07-05

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集