Switchboard Dialogue Act Corpus

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/NathanDuran/Switchboard-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

用于对话行为分类的Switchboard对话行为语料库，数据被分为原始的训练和测试集，以及一个验证集。

The Switchboard Dialogue Act Corpus for dialogue act classification is divided into raw training and test sets, as well as a validation set.

创建时间：

2018-11-15

原始信息汇总

数据集概述

数据集名称

Switchboard Dialogue Act Corpus

数据集用途

用于对话行为（DA）分类。

数据集结构

训练集：包含1115个对话。
测试集：包含19个对话。
验证集：包含21个对话。

数据处理脚本

swda_to_text.py：将所有对话转换为纯文本格式。
utilities.py：包含加载/保存数据的辅助函数。
process_transcript.py：包含处理每个对话的函数。
swda_metadata.py：从处理过的对话中生成各种元数据，并保存为字典到pickle文件。

数据格式

默认格式：Speaker | Utterance Text | Dialogue Act Tag。
非言语标记（x tags）被移除。
中断标记（+ tags）被合并为不间断句子。
所有不流畅注释被移除。

对话行为标签统计

总标签数：41
总话语数：199740
词汇量：22302
说话人数：2

元数据信息

总话语数：199740
最长话语长度：132
平均话语长度：9.62
总对话数：1155
最长对话长度：457
平均对话长度：172.94

训练集详情

对话数：1115
最长对话长度：457
平均对话长度：172.55
话语数：192390

测试集详情

对话数：19
最长对话长度：330
平均对话长度：214.63
话语数：4078

验证集详情

对话数：21
最长对话长度：299
平均对话长度：155.81
话语数：3272

元数据字典键值

num_utterances：全语料库中的总话语数。
max_utterance_len：语料库中最长话语的单词数。
mean_utterance_len：话语的平均单词数。
num_dialogues：语料库中的总对话数。
max_dialogues_len：语料库中最长对话的话语数。
mean_dialogues_len：对话的平均话语数。
word_freq：包含单词和计数列的数据框。
vocabulary：词汇表中的所有单词列表。
vocabulary_size：词汇表中的单词数。
label_freq：包含上述对话行为表中所有数据的数据框。
labels：所有DA标签的列表。
num_labels：Switchboard数据中使用的标签数。
speakers：所有说话人的列表。
num_speakers：Switchboard数据中的说话人数。

每个数据集还有以下信息：

<setname>_num_utterances：集合中的话语数。
<setname>_num_dialogues：集合中的对话数。
<setname>_max_dialogue_len：集合中最长对话的长度。
<setname>_mean_dialogue_len：集合中对话的平均长度。

搜集汇总

数据集介绍

构建方式

Switchboard Dialogue Act Corpus数据集的构建基于Switchboard电话对话语料库，该语料库包含了大量自然对话的录音。数据集的构建过程包括将对话内容分割为训练集、测试集和验证集，分别包含1115、19和21个对话。每个对话中的话语被标注为特定的对话行为标签（Dialogue Act, DA），并根据SWBD-DAMSL标签集进行分类。此外，数据集还通过一系列脚本进行处理，如将对话转换为纯文本格式、生成元数据等，以确保数据的可读性和可用性。

特点

该数据集的主要特点在于其丰富的对话行为标签系统，涵盖了41种不同的对话行为类型，如陈述、疑问、同意等。每个话语不仅标注了对话行为，还记录了说话者信息，使得研究者能够深入分析对话的动态结构。此外，数据集提供了详细的元数据，包括话语长度、对话长度、词汇量等，为对话系统的研究提供了全面的支持。

使用方法

使用Switchboard Dialogue Act Corpus数据集时，用户可以通过提供的脚本将对话数据转换为纯文本格式，并根据需要选择是否保留说话者和对话行为标签。数据集的元数据可以通过Python脚本加载，便于进行进一步的统计分析和模型训练。研究者可以利用该数据集进行对话行为分类、对话生成等任务，从而推动自然语言处理领域的发展。

背景与挑战

背景概述

Switchboard Dialogue Act Corpus（Switchboard对话行为语料库）是由Stanford大学的研究人员创建的，旨在支持对话行为（DA）分类的研究。该语料库源自1997年的Switchboard电话对话数据集，包含了1155个对话，总计199740个话语，涵盖了41种不同的对话行为标签。主要研究人员包括Daniel Jurafsky等，他们的工作为自然语言处理领域中的对话系统研究提供了重要的资源。该语料库的创建不仅推动了对话行为分类技术的发展，还为后续的对话系统设计和评估提供了基准数据。

当前挑战

Switchboard Dialogue Act Corpus在构建过程中面临了多个挑战。首先，对话行为的多样性和复杂性使得标签的准确标注成为一个难题，尤其是对于一些模糊或难以归类的话语。其次，语料库中的数据分布不均衡，某些对话行为标签的样本数量较少，这为模型的训练带来了数据稀缺性的挑战。此外，处理和分析大规模的对话数据也需要高效的算法和计算资源。最后，如何确保对话行为分类模型的泛化能力，使其在不同场景下都能准确识别对话行为，也是一个重要的研究挑战。

常用场景

经典使用场景

Switchboard Dialogue Act Corpus 数据集的经典使用场景主要集中在对话行为（Dialogue Act, DA）分类任务上。该数据集通过标记每个话语的对话行为标签，为研究者提供了一个丰富的资源，用于训练和评估对话行为分类模型。通过分析话语的语义和上下文，模型可以识别出说话者的意图，如提问、陈述、同意等，从而为对话系统的自然语言理解提供支持。

解决学术问题

Switchboard Dialogue Act Corpus 数据集解决了对话行为分类这一重要的学术研究问题。通过提供大量标注的对话数据，该数据集使得研究者能够深入探索如何从自然语言中提取对话行为信息，进而提升对话系统的理解和生成能力。这一研究不仅推动了自然语言处理领域的发展，还为对话系统的实际应用奠定了理论基础。

衍生相关工作

基于 Switchboard Dialogue Act Corpus 数据集，研究者们开展了大量相关工作。例如，许多研究通过该数据集训练对话行为分类模型，并在此基础上提出了新的模型架构和算法。此外，该数据集还被用于多轮对话生成、对话状态跟踪等任务，推动了对话系统领域的整体发展。这些衍生工作不仅丰富了对话行为分类的研究内容，还为其他相关领域的研究提供了宝贵的数据资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集