MISeD

github2024-05-06 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/MISeD

下载链接

链接失效反馈

官方服务：

资源简介：

MISeD是一个专注于会议记录的信息寻求对话数据集，包含432个对话，涉及225个会议，分为三个领域：产品会议、学术会议和公共议会委员会会议。数据集详细描述了每个实例的组成，包括对话、相关元数据和可能伴随的转录跨度。

MISeD is an information-seeking dialogue dataset focused on meeting minutes, comprising 432 dialogues across 225 meetings, categorized into three domains: product meetings, academic conferences, and public council committee meetings. The dataset provides detailed descriptions of each instance's composition, including dialogues, relevant metadata, and potentially accompanying transcription spans.

创建时间：

2024-05-01

原始信息汇总

MISeD数据集概述

数据集描述

MISeD（Meeting Information Seeking Dialogs）是一个关于会议记录的信息寻求对话数据集。
包含432个对话，这些对话基于QMSum会议语料库中的225个会议记录。
会议记录来自三个领域：134个产品会议（AMI）、58个学术会议（ICSI）和33个公共议会委员会会议（来自威尔士议会和加拿大议会）。

数据集结构

每个数据集实例包括：
1. 关于特定会议记录的单个对话，包含最多十个查询-响应轮次。
2. 相关元数据。
3. 当相关时，响应伴随一组归因的转录文本片段。

数据集使用

用于训练和评估代理模型，每个对话被分割成任务实例，每个实例代表一个当前查询，包括其前述对话历史、相应的目标响应及其归因。

相关数据集

WOZ数据集是MISeD的全手动版本，旨在客观测试使用MISeD数据训练模型的价值。

搜集汇总

数据集介绍

构建方式

MISeD数据集的构建基于QMSum会议语料库，涵盖了来自三个不同领域的225场会议记录，包括134场产品会议（AMI）、58场学术会议（ICSI）和33场公共议会委员会会议。该数据集通过半自动化的方法生成，利用大型语言模型（LLMs）生成对话查询和响应，随后由人工进行验证和标注，以确保对话内容与会议记录的准确对应。这种半自动化的构建方式不仅提高了数据生成的效率，还确保了数据的质量和可靠性。

特点

MISeD数据集的显著特点在于其专注于信息寻求对话，且对话内容与会议记录紧密关联。每个对话实例包含最多十轮的问答交互，并附带相关的元数据和响应的会议记录片段。此外，数据集的分割比例为70:15:15，适用于训练、验证和测试。MISeD的另一个特点是其与WOZ数据集的对比，WOZ数据集是完全手动构建的版本，用于客观评估MISeD数据集在模型训练中的价值。

使用方法

MISeD数据集适用于训练和评估信息寻求对话的代理模型。每个对话实例被划分为多个任务实例，每个任务实例包含当前查询、其对话历史、目标响应及其对应的会议记录片段。这种结构化的数据格式便于模型学习和生成与会议记录相关的对话内容。研究者可以通过引用相关文献来使用该数据集，并根据其分割比例进行模型训练和评估，以验证模型在信息寻求对话任务中的表现。

背景与挑战

背景概述

MISeD（Meeting Information Seeking Dialogs）数据集是一个专注于会议记录的信息寻求对话数据集，由Golany等人于2024年创建。该数据集基于QMSum会议语料库，涵盖了来自不同领域的225场会议，包括产品会议、学术会议和公共议会委员会会议。MISeD的核心研究问题是如何在长篇且嘈杂的会议记录中，通过半自动化的方法生成信息寻求对话，并确保对话的准确性和响应的归因性。MISeD的创建旨在推动信息寻求对话系统的发展，特别是在处理复杂文档和长篇对话的场景中，为相关领域的研究提供了宝贵的资源。

当前挑战

MISeD数据集在构建过程中面临多项挑战。首先，会议记录通常较长且包含大量噪声，这增加了对话生成的复杂性。其次，自动化的归因过程仍然具有挑战性，因此采用了半自动化的方法，即使用大型语言模型生成对话，随后由人工进行验证和归因。此外，如何在有限的资源下高效生成高质量的对话数据，同时确保对话的连贯性和信息的准确性，也是该数据集面临的重要挑战。最后，MISeD的评估需要与完全手动生成的WOZ数据集进行对比，以验证其训练模型的有效性，这进一步增加了数据集的复杂性和研究难度。

常用场景

经典使用场景

MISeD数据集在信息检索对话领域中展现了其经典应用场景，主要用于训练和评估基于会议记录的对话系统。该数据集通过模拟真实的查询-响应对话，涵盖了多达十轮的交互，使得模型能够学习如何在复杂的会议记录中定位并生成准确的回答。这种场景特别适用于需要从长篇文档中提取信息的任务，如会议摘要生成、关键信息检索等。

解决学术问题

MISeD数据集解决了信息检索对话系统在处理长篇文档时的关键学术问题，特别是如何有效地生成基于源文档的对话响应并进行准确的归因。通过提供半自动化的数据生成方法，MISeD不仅提高了数据生成的效率，还确保了数据的质量和准确性，从而推动了信息检索对话系统的研究进展。

衍生相关工作

MISeD数据集的发布催生了一系列相关研究工作，特别是在信息检索对话系统和长文档处理领域。例如，基于MISeD的模型训练方法被用于改进现有的对话生成模型，提升了模型在复杂文档中的表现。此外，MISeD的半自动化数据生成方法也为其他领域的数据集构建提供了新的思路和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集