Switchboard Dialog Act Corpus
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/cgpotts/swda
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含双边电话交谈的语音语料库,其中提供了具体的对话主题。此外,数据集还包含了额外的特征,如说话人标识和话题信息。其规模较大,包含了超过10万的语音片段。该数据集的任务是对对话行为进行分类。
This dataset is a speech corpus composed of bilateral telephone conversations, with specific conversation topics provided. Furthermore, it includes additional features such as speaker identifiers and topic information. With a large scale, the dataset contains over 100,000 speech segments. The task associated with this dataset is dialogue act classification.
搜集汇总
数据集介绍

背景与挑战
背景概述
Switchboard Dialog Act Corpus是基于Switchboard-1电话语音语料库的扩展数据集,添加了对话行为标签以总结话语的句法、语义和语用信息。该数据集包含221,616个话语,其中约53%带有Penn Treebank解析树,并提供了Python处理工具和元数据(如话题、参与者性别和教育背景),适用于对话分析和自然语言处理研究。
以上内容由遇见数据集搜集并总结生成



