DoubanConversationCorpus
收藏Opencsg2024-03-08 更新2024-06-22 收录
下载链接:
https://www.opencsg.com/datasets/OpenDataLab/DoubanConversationCorpus
下载链接
链接失效反馈官方服务:
资源简介:
我们发布豆瓣会话语料库,包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。豆瓣会话语料统计如下表所示。 火车 瓦尔 测试 会话响应对 1m 50k 10k 平均每个会话的积极响应 1 1 1.18 无情河童 不适用 不适用 0.41 每次会话的最小转数 3 3 3 每个会话的最大值 98 91 45 每次会话的平均转数 6.69 6.75 5.95 每个话语的平均字数 18.56 18.50 20.74 测试数据包含 1000 个对话上下文,对于每个上下文,我们创建 10 个响应作为候选。我们招募了三名标注员来判断候选人是否对会议做出了适当的回应。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大部分标签被视为最终决定。 据我们所知,这是第一个用于基于检索的聊天机器人的人工标记测试集。整个语料链接 https://www.dropbox.com/s/90t0qtji9ow20ca/DoubanConversaionCorpus.zip?dl=0 数据模板 标签 \t 对话话语(由 \t 分割)\t 响应
创建时间:
2024-03-07



