Multi-Questioner_Dialogue
收藏Multi-Questioner Dialogue (MQDialog) Dataset
数据集详情
数据集描述
Multi-Questioner Dialogue (MQDialog) 数据集旨在促进研究者在多轮对话中对提问者感知的个性化响应生成。该数据集包含多个提问者与每个响应者的对话。数据集来源于英语和中文的流行电视剧剧本以及现实世界的对话。数据集中的对话由选定的主要演员作为响应者,其他角色或联系人作为提问者。数据集包含12个响应者和173个提问者。该数据集支持对话生成、响应评估以及多轮对话中的提问者感知个性化研究。
数据集来源
- 英语剧本: 《生活大爆炸》、《老友记》和《摩登家庭》。
- 中文剧本: 《武林外传》和《甄嬛传》。
- 现实世界对话 (微信): 来自单个用户的记录,主要关注两人聊天。
直接用途
该数据集适用于:
- 训练和评估提问者感知的多轮对话系统。
- 研究与个性一致的响应生成。
- 基准测试多提问者设置下的对话模型性能。
数据集结构
- 响应者: 12位电视剧剧本中的主要演员和一个微信用户。
- 提问者: 173个与响应者互动的个人,详细信息列在表格中。
- 划分: 随机分为训练集(平均每个响应者3761个对话)和测试集(平均每个响应者917个对话)。
数据文件与代码
每个响应者的对话与不同提问者存储在相应的文件夹中,diags_two_role_{responder_name}。数据处理的中间结果也已提供。最终用于提问者感知个性化的数据集为:
{script_name}_diags_{responder_name}_{questioner_name}_{responder_name}_response_L512_dev.json{script_name}_diags_{responder_name}_{questioner_name}_{responder_name}_response_L512_train.json
此外,基于查询相似性的不同提问者对话已进行聚类,聚类结果存储在diags_two_role_{responder_name}_clustered文件夹中。
数据实例
以下是数据集中的一个示例,包含target_role(即responder)和input_role(即questioner)之间的对话。
json
{
"id": "episode_14_chunk_6_index_0_part2_piece_0",
"conversations": [
{
"from": "Bernadette",
"value": "Did you hear? Isn’t it terrible?"
},
{
"from": "Leonard",
"value": "Have you seen him?"
},
{
"from": "Bernadette",
"value": "They wouldn’t let me in. Oh my Howie."
},
{
"from": "Leonard",
"value": "It’ll be okay. It’ll be okay."
}
],
"target_role": "Leonard",
"target_role_short": "Leonard",
"input_role": "Bernadette",
"input_role_short": "Bernadette",
"role_pair_id": 8,
"cluster_id": 2 (仅在聚类数据中)
}
数据集创建
策划理由
MQDialog 数据集的创建是为了满足对多语言、多提问者数据集的需求,以反映在多样化的对话环境中提问者感知的个性化响应生成。
数据收集与处理
- 剧本: 提取响应者(主要演员)与提问者(其他角色)之间的对话,确保通过删除错误、重复内容和无关条目来获得干净的数据集。
- 现实世界记录: 专注于一对一对话,通过时间间隔(例如3小时)定义新的对话会话。
- 过滤: 排除少于20次互动的提问者,以确保有意义的分析。
建议
- 将数据集与其他语料库结合使用,以减轻文化或语言偏见。
- 确保数据的责任使用,特别是在为现实世界应用训练模型时。




