swda_processed

Hugging Face2025-05-11 更新2025-05-12 收录

下载链接：

https://huggingface.co/datasets/nico8771/swda_processed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了通话者信息、文本内容、行为标签、会话编号和说话人变化标签。行为标签有多个类别，如'%'、'^2'等。数据集分为训练集、验证集和测试集，可用于自然语言处理等任务。

创建时间：

2025-05-10

原始信息汇总

数据集概述

基本信息

数据集名称: swda_processed
下载大小: 5,208,353 字节
数据集大小: 13,925,572 字节

数据集特征

caller: 字符串类型，表示通话者。
text: 字符串类型，表示对话文本。
act_tag: 类别标签，包含41种对话行为标签，具体如下：
- 0: %
- 1: ^2
- 2: ^g
- 3: ^h
- 4: ^q
- 5: aa
- 6: aap_am
- 7: ad
- 8: ar
- 9: arp_nd
- 10: b
- 11: b^m
- 12: ba
- 13: bd
- 14: bf
- 15: bh
- 16: bk
- 17: br
- 18: fa
- 19: fc
- 20: fo_o_fw_"_by_bc
- 21: fp
- 22: ft
- 23: h
- 24: na
- 25: ng
- 26: nn
- 27: no
- 28: ny
- 29: oo_co_cc
- 30: qh
- 31: qo
- 32: qrr
- 33: qw
- 34: qw^d
- 35: qy
- 36: qy^d
- 37: sd
- 38: sv
- 39: t1
- 40: t3
conversation_no: 字符串类型，表示对话编号。
speaker_change: 类别标签，包含两种类型：
- 0: no_change
- 1: change

数据集划分

训练集 (train):
- 样本数量: 192,386
- 大小: 13,413,735 字节
验证集 (validation):
- 样本数量: 3,272
- 大小: 232,063 字节
测试集 (test):
- 样本数量: 4,078
- 大小: 279,774 字节

配置文件

默认配置 (default):
- 训练集路径: data/train-*
- 验证集路径: data/validation-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

swda_processed数据集源自Switchboard对话语料库的深度加工，通过系统化标注将原始电话对话转化为结构化数据。构建过程中采用对话行为标签体系对每段话语进行精细分类，形成包含42种对话行为类型的标注系统。数据以对话轮次为基本单位，保留了说话人转换标记和对话编号等元信息，通过标准化处理确保不同对话片段的可比性。

使用方法

研究人员可通过HuggingFace平台直接加载数据集，其预置的训练、验证和测试分割便于模型开发与评估。使用时应关注act_tag字段的对话行为分类体系，结合caller和speaker_change字段分析对话动态。该数据集特别适合用于对话行为识别、对话系统训练等自然语言处理任务，也可作为社会语言学研究的语料资源。

背景与挑战

背景概述

swda_processed数据集源自Switchboard对话语料库，该语料库由美国国防高级研究计划局（DARPA）于20世纪90年代初资助构建，旨在为自然语言处理领域提供丰富的电话对话数据。数据集由语言学家和计算机科学家团队精心标注，核心研究问题聚焦于对话行为分类（Dialogue Act Classification），即识别对话中每个语句的交际意图。作为对话系统研究的重要基准，该数据集推动了对话理解、意图识别等方向的发展，在学术界和工业界具有广泛影响力。

当前挑战

该数据集面临两大核心挑战：在领域问题层面，对话行为标签体系的复杂性（含40种细粒度标签）导致分类模型易受类别不平衡和语义模糊性影响；在构建过程层面，原始语音转文本的噪声干扰、说话人交替的动态标注，以及口语化表达（如停顿、重复）的标准化处理，均为数据清洗和标注带来显著困难。多轮对话的连贯性保持要求进一步增加了标注一致性的维护难度。

常用场景

经典使用场景

在对话系统研究领域，swda_processed数据集因其详尽的对话行为标注而成为经典资源。该数据集记录了自然对话中的言语行为类别，为研究者分析对话结构、理解说话者意图提供了丰富素材。其标注体系覆盖了从陈述、提问到反馈等42种对话行为，特别适合用于训练和评估对话行为分类模型。

解决学术问题

该数据集有效解决了对话系统中对话行为识别这一核心学术问题。通过提供大规模真实对话的精细标注，研究者能够深入探究言语行为与对话结构的关系，验证对话管理算法的有效性。其标注体系为建立统一的对话行为分类标准提供了重要参考，推动了对话系统评估方法的标准化进程。

实际应用

在实际应用中，该数据集支撑了智能客服、虚拟助手等对话系统的开发。基于其训练的模型能够准确识别用户意图，实现更自然的对话交互。在教育培训领域，该数据集还被用于开发对话分析工具，帮助学习者改善沟通技巧。其细致的标注为商业对话分析平台提供了重要基准。

数据集最近研究