Multi-Questioner_Dialogue

Hugging Face2024-12-23 更新2024-12-24 收录

下载链接：

https://huggingface.co/datasets/Nidhogg-zh/Multi-Questioner_Dialogue

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Questioner Dialogue (MQDialog) 数据集旨在促进研究者在提问者感知个性化方面的研究。该数据集包含针对每个回应者的各种提问者的对话。数据集来源于流行电视剧的英汉剧本和现实世界的对话。数据集中包括由选定的主要演员作为回应者的对话，而其他角色或联系人则作为提问者。数据集包含12个多样化的回应者和173个提问者。该数据集支持对话生成、回应评估以及在多轮对话中提问者感知的个性化研究。

创建时间：

2024-12-15

原始信息汇总

Multi-Questioner Dialogue (MQDialog) Dataset

数据集详情

数据集描述

Multi-Questioner Dialogue (MQDialog) 数据集旨在促进研究者在多轮对话中对提问者感知的个性化响应生成。该数据集包含多个提问者与每个响应者的对话。数据集来源于英语和中文的流行电视剧剧本以及现实世界的对话。数据集中的对话由选定的主要演员作为响应者，其他角色或联系人作为提问者。数据集包含12个响应者和173个提问者。该数据集支持对话生成、响应评估以及多轮对话中的提问者感知个性化研究。

数据集来源

英语剧本: 《生活大爆炸》、《老友记》和《摩登家庭》。
中文剧本: 《武林外传》和《甄嬛传》。
现实世界对话 (微信): 来自单个用户的记录，主要关注两人聊天。

直接用途

该数据集适用于：

训练和评估提问者感知的多轮对话系统。
研究与个性一致的响应生成。
基准测试多提问者设置下的对话模型性能。

数据集结构

响应者: 12位电视剧剧本中的主要演员和一个微信用户。
提问者: 173个与响应者互动的个人，详细信息列在表格中。
划分: 随机分为训练集（平均每个响应者3761个对话）和测试集（平均每个响应者917个对话）。

数据文件与代码

每个响应者的对话与不同提问者存储在相应的文件夹中，diags_two_role_{responder_name}。数据处理的中间结果也已提供。最终用于提问者感知个性化的数据集为：

{script_name}_diags_{responder_name}_{questioner_name}_{responder_name}_response_L512_dev.json
{script_name}_diags_{responder_name}_{questioner_name}_{responder_name}_response_L512_train.json

此外，基于查询相似性的不同提问者对话已进行聚类，聚类结果存储在diags_two_role_{responder_name}_clustered文件夹中。

数据实例

以下是数据集中的一个示例，包含target_role（即responder）和input_role（即questioner）之间的对话。 json { "id": "episode_14_chunk_6_index_0_part2_piece_0", "conversations": [ { "from": "Bernadette", "value": "Did you hear? Isn’t it terrible?" }, { "from": "Leonard", "value": "Have you seen him?" }, { "from": "Bernadette", "value": "They wouldn’t let me in. Oh my Howie." }, { "from": "Leonard", "value": "It’ll be okay. It’ll be okay." } ], "target_role": "Leonard", "target_role_short": "Leonard", "input_role": "Bernadette", "input_role_short": "Bernadette", "role_pair_id": 8, "cluster_id": 2 (仅在聚类数据中) }

数据集创建

策划理由

MQDialog 数据集的创建是为了满足对多语言、多提问者数据集的需求，以反映在多样化的对话环境中提问者感知的个性化响应生成。

数据收集与处理

剧本: 提取响应者（主要演员）与提问者（其他角色）之间的对话，确保通过删除错误、重复内容和无关条目来获得干净的数据集。
现实世界记录: 专注于一对一对话，通过时间间隔（例如3小时）定义新的对话会话。
过滤: 排除少于20次互动的提问者，以确保有意义的分析。

建议

将数据集与其他语料库结合使用，以减轻文化或语言偏见。
确保数据的责任使用，特别是在为现实世界应用训练模型时。

搜集汇总

数据集介绍

构建方式

Multi-Questioner Dialogue (MQDialog) 数据集的构建基于多种语言的电视剧剧本和真实世界对话，旨在支持问题者感知个性化对话研究。数据集从《生活大爆炸》、《老友记》、《摩登家庭》、《武林外传》和《甄嬛传》等电视剧中提取对话，同时包括来自微信的真实对话记录。每个对话由一个响应者和多个提问者组成，确保了对话的多样性和复杂性。数据集通过筛选和清理，去除了重复内容和无关条目，确保了数据的质量和一致性。

使用方法

MQDialog 数据集适用于训练和评估问题者感知的多轮对话系统，研究个性化的响应生成，以及在多提问者设置下对对话模型进行基准测试。使用者可以通过提供的代码提取特定响应者的对话，并利用数据集进行模型训练和验证。数据集的结构清晰，提供了详细的对话历史和目标响应，便于研究者进行深入分析和模型优化。

背景与挑战

背景概述

Multi-Questioner Dialogue (MQDialog) 数据集旨在推动问答者感知个性化研究的发展。该数据集由英语和中文的流行电视剧剧本以及真实世界对话组成，涵盖了12位响应者和173位问答者的多样化对话。MQDialog 数据集的核心研究问题在于如何在多轮对话中实现问答者感知的个性化响应生成。通过从《生活大爆炸》、《老友记》、《摩登家庭》、《武林外传》和《甄嬛传》等电视剧中提取对话，结合微信的真实对话记录，MQDialog 数据集为对话生成、响应评估以及多问答者设置下的个性化研究提供了丰富的资源。该数据集的创建不仅填补了多语言、多问答者对话数据集的空白，还为相关领域的研究提供了新的基准。

当前挑战

MQDialog 数据集在构建过程中面临多项挑战。首先，如何从电视剧剧本和真实对话中提取高质量、多样化的对话数据，确保数据的清洁性和代表性，是一个重要的技术难题。其次，由于问答者的多样性，如何在多轮对话中准确捕捉并生成与问答者个性相符的响应，是该数据集面临的主要研究挑战。此外，跨语言对话数据的处理和整合，以及如何有效避免文化或语言偏见，也是该数据集在使用过程中需要解决的问题。最后，数据集的规模和复杂性要求在训练和评估模型时，需特别注意模型的泛化能力和鲁棒性。

常用场景

经典使用场景

Multi-Questioner Dialogue (MQDialog) 数据集的经典使用场景主要集中在多轮对话系统中，特别是针对提问者感知的个性化响应生成。该数据集通过模拟不同提问者与响应者之间的对话，支持研究如何在多轮对话中生成与提问者个性和风格相匹配的响应。这种场景在开发智能客服、虚拟助手以及社交机器人等应用中尤为重要，能够显著提升用户体验。

解决学术问题

MQDialog 数据集解决了多轮对话系统中提问者感知的个性化响应生成这一关键学术问题。通过提供多样化的提问者和响应者组合，该数据集为研究者提供了一个丰富的实验平台，用于探索如何在不同对话上下文中生成符合提问者预期的响应。这不仅推动了对话系统领域的研究进展，还为个性化语言模型的开发提供了重要参考。

实际应用

在实际应用中，MQDialog 数据集可用于训练和评估多轮对话系统，特别是在需要个性化响应的场景中。例如，智能客服系统可以根据用户的不同提问风格和内容，生成更加贴合用户需求的回复。此外，该数据集还可用于社交机器人和虚拟助手的开发，帮助这些系统在与用户的互动中表现出更高的个性化和自然度。

数据集最近研究