Meeting Recorder Dialogue Act Corpus

github2024-04-04 更新2024-05-31 收录

下载链接：

https://github.com/NathanDuran/MRDA-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

用于对话行为（DA）分类的会议记录器对话行为语料库，由Shriberg等人在2004年提出。数据集包括原始的训练和测试集，以及两个未使用的对话。

A corpus for Dialogue Act (DA) classification, proposed by Shriberg et al. in 2004, derived from meeting recorder dialogues. The dataset encompasses the original training and test sets, along with two additional unused dialogues.

创建时间：

2019-03-24

原始信息汇总

数据集概述

数据集名称

Meeting Recorder Dialogue Act Corpus

数据集目的

用于对话行为（DA）分类的研究，基于Shriberg, E. et al.(2004)的论文。

数据集内容

数据集包含对话行为的原始训练和测试集，以及两个未使用的对话。
对话被分为训练、测试等不同的集合。

数据集格式

使用MRDA标签集，基于SWBD-DAMSL DA标签集的变体。
每个话语标记有基本、一般和完整三种类型的DA标签。
默认格式为：Speaker | Utterance Text | Basic DA Tag | General DA Tag | Full DA Tag。

数据处理脚本

mrda_to_text.py: 将所有对话转换为纯文本格式。
utilities.py: 包含加载/保存数据的辅助函数。
process_transcript.py: 包含处理每个对话的函数。
mrda_metadata.py: 从处理过的对话中生成元数据，并保存为字典到pickle文件。

数据集元数据

总话语数: 108202
最大话语长度: 85
平均话语长度: 8.01
总对话数: 75
最大对话长度: 3391
平均对话长度: 1442.69
词汇量: 10866
基本标签数: 5
一般标签数: 12
完整标签数: 52
发言人数量: 52

训练集

对话数: 51
最大对话长度: 3391
平均对话长度: 1471.9
话语数: 75067

测试集

对话数: 12
最大对话长度: 2028
平均对话长度: 1391.83
话语数: 16702

验证集

对话数: 12
最大对话长度: 1969
平均对话长度: 1369.42
话语数: 16433

元数据字典键值

num_utterances: 总话语数。
max_utterance_len: 最长话语的单词数。
mean_utterance_len: 平均话语长度。
num_dialogues: 总对话数。
max_dialogues_len: 最长对话的话语数。
mean_dialogues_len: 平均对话长度。
word_freq: 包含单词和计数的数据框。
vocabulary: 词汇列表。
vocabulary_size: 词汇量。
speakers: 发言人列表。
num_speakers: 发言人数量。

每个DA标签集的元数据

<setname>_label_freq: 包含DA标签频率的数据框。
<setname>_labels: DA标签列表。
num_<setname>_labels: 标签数量。

每个数据集的元数据

<setname>_num_utterances: 话语数。
<setname>_num_dialogues: 对话数。
<setname>_max_dialogue_len: 最长对话长度。
<setname>_mean_dialogue_len: 平均对话长度。

搜集汇总

数据集介绍

构建方式

Meeting Recorder Dialogue Act Corpus（MRDA）是一个专门用于对话行为（DA）分类的数据集，其构建基于Shriberg等人（2004）的研究。该数据集从会议录音中提取对话，并通过MRDA标签集对每个话语进行标注。MRDA标签集是SWBD-DAMSL标签集的变体，允许对话行为以<*通用标签*> ^ <*特定标签*> . <*中断来源*>的形式进行组合。数据集分为训练集、测试集和验证集，其中包含75个对话，总计108,202个话语。未使用的两个对话被添加到评估和测试集中，以增强数据集的多样性。

特点

MRDA数据集的特点在于其多层次对话行为标签系统，包含基本、通用和完整三个层次的标签。基本标签将对话行为简化为5类，通用标签扩展至12类，而完整标签则涵盖了52类具体对话行为。数据集中的每个话语都标注了说话者、话语文本以及三个层次的对话行为标签。此外，数据集还剔除了非言语（如笑声、清嗓）和未标注的话语，并对中断、放弃和无法解释的话语进行了统一处理。这些特点使得MRDA数据集在对话行为分类研究中具有高度的灵活性和实用性。

使用方法

使用MRDA数据集时，用户可以通过提供的Python脚本（如mrda_to_text.py）将对话转换为纯文本格式，并按训练集、测试集等分类保存。数据集中的每个话语以*说话者* | *话语文本* | *基本DA标签* | *通用DA标签* | *完整DA标签*的格式存储。用户还可以通过设置utterance_only_flag参数，仅提取话语文本。此外，数据集提供了丰富的元数据，包括话语长度、对话长度、词汇量等，用户可以通过utilities.py和process_transcript.py脚本加载和处理这些数据。MRDA数据集适用于对话行为分类、对话系统开发以及自然语言处理领域的研究。

背景与挑战

背景概述

Meeting Recorder Dialogue Act Corpus（MRDA）是由Shriberg等人于2004年提出的一个对话行为分类数据集，旨在促进自然语言处理领域中对对话行为的深入研究。该数据集基于会议录音，涵盖了多种对话行为标签，包括基本、通用和完整标签集，分别对应不同的语义层次。MRDA数据集的构建参考了SWBD-DAMSL标签体系，并在此基础上进行了扩展和优化，使其能够更精确地捕捉对话中的细微语义变化。该数据集在对话行为分类、对话系统设计以及语音识别等领域具有广泛的应用价值，为研究者提供了一个丰富的实验平台。

当前挑战

MRDA数据集在解决对话行为分类问题时面临多重挑战。首先，对话行为的多样性和复杂性使得标签体系的构建和标注工作极为繁琐，尤其是在处理多层次的语义表达时，如何确保标签的一致性和准确性成为一大难题。其次，数据集中包含大量的非语言行为（如笑声、咳嗽等）和未标记的对话片段，这些数据的处理对模型的鲁棒性提出了更高的要求。此外，对话中的打断、放弃和不可解释的片段进一步增加了数据处理的难度。在构建过程中，研究人员还需应对数据不平衡问题，某些对话行为标签的出现频率极低，可能导致模型在训练过程中出现偏差。这些挑战共同构成了MRDA数据集在对话行为分类研究中的核心难点。

常用场景

经典使用场景

Meeting Recorder Dialogue Act Corpus（MRDA）数据集在对话行为分类研究中占据重要地位，广泛应用于自然语言处理领域。该数据集通过对会议录音的对话进行标注，提供了丰富的对话行为标签，涵盖了陈述、提问、打断等多种对话行为。研究者通常利用该数据集训练和评估对话行为分类模型，探索对话中的语义结构和行为模式。

解决学术问题

MRDA数据集解决了对话行为分类中的关键问题，特别是在多轮对话中的行为识别和语义理解方面。通过提供详细的对话行为标签，该数据集帮助研究者深入分析对话中的行为模式，提升对话系统的理解能力。此外，该数据集还为对话行为的多层次分类提供了基础，支持从简单到复杂的对话行为分析。

衍生相关工作

基于MRDA数据集，许多经典研究工作得以展开。例如，研究者开发了基于深度学习的对话行为分类模型，显著提升了分类精度。此外，该数据集还被用于研究对话行为与情感分析、对话生成等领域的交叉问题，推动了对话系统的多维度发展。这些工作不仅扩展了MRDA数据集的应用范围，也为对话行为研究提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集