five

swda_processed

收藏
Hugging Face2025-05-11 更新2025-05-12 收录
下载链接:
https://huggingface.co/datasets/nico8771/swda_processed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了通话者信息、文本内容、行为标签、会话编号和说话人变化标签。行为标签有多个类别,如'%'、'^2'等。数据集分为训练集、验证集和测试集,可用于自然语言处理等任务。
创建时间:
2025-05-10
原始信息汇总

数据集概述

基本信息

  • 数据集名称: swda_processed
  • 下载大小: 5,208,353 字节
  • 数据集大小: 13,925,572 字节

数据集特征

  • caller: 字符串类型,表示通话者。
  • text: 字符串类型,表示对话文本。
  • act_tag: 类别标签,包含41种对话行为标签,具体如下:
    • 0: %
    • 1: ^2
    • 2: ^g
    • 3: ^h
    • 4: ^q
    • 5: aa
    • 6: aap_am
    • 7: ad
    • 8: ar
    • 9: arp_nd
    • 10: b
    • 11: b^m
    • 12: ba
    • 13: bd
    • 14: bf
    • 15: bh
    • 16: bk
    • 17: br
    • 18: fa
    • 19: fc
    • 20: fo_o_fw_"_by_bc
    • 21: fp
    • 22: ft
    • 23: h
    • 24: na
    • 25: ng
    • 26: nn
    • 27: no
    • 28: ny
    • 29: oo_co_cc
    • 30: qh
    • 31: qo
    • 32: qrr
    • 33: qw
    • 34: qw^d
    • 35: qy
    • 36: qy^d
    • 37: sd
    • 38: sv
    • 39: t1
    • 40: t3
  • conversation_no: 字符串类型,表示对话编号。
  • speaker_change: 类别标签,包含两种类型:
    • 0: no_change
    • 1: change

数据集划分

  • 训练集 (train):
    • 样本数量: 192,386
    • 大小: 13,413,735 字节
  • 验证集 (validation):
    • 样本数量: 3,272
    • 大小: 232,063 字节
  • 测试集 (test):
    • 样本数量: 4,078
    • 大小: 279,774 字节

配置文件

  • 默认配置 (default):
    • 训练集路径: data/train-*
    • 验证集路径: data/validation-*
    • 测试集路径: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
swda_processed数据集源自Switchboard对话语料库的深度加工,通过系统化标注将原始电话对话转化为结构化数据。构建过程中采用对话行为标签体系对每段话语进行精细分类,形成包含42种对话行为类型的标注系统。数据以对话轮次为基本单位,保留了说话人转换标记和对话编号等元信息,通过标准化处理确保不同对话片段的可比性。
使用方法
研究人员可通过HuggingFace平台直接加载数据集,其预置的训练、验证和测试分割便于模型开发与评估。使用时应关注act_tag字段的对话行为分类体系,结合caller和speaker_change字段分析对话动态。该数据集特别适合用于对话行为识别、对话系统训练等自然语言处理任务,也可作为社会语言学研究的语料资源。
背景与挑战
背景概述
swda_processed数据集源自Switchboard对话语料库,该语料库由美国国防高级研究计划局(DARPA)于20世纪90年代初资助构建,旨在为自然语言处理领域提供丰富的电话对话数据。数据集由语言学家和计算机科学家团队精心标注,核心研究问题聚焦于对话行为分类(Dialogue Act Classification),即识别对话中每个语句的交际意图。作为对话系统研究的重要基准,该数据集推动了对话理解、意图识别等方向的发展,在学术界和工业界具有广泛影响力。
当前挑战
该数据集面临两大核心挑战:在领域问题层面,对话行为标签体系的复杂性(含40种细粒度标签)导致分类模型易受类别不平衡和语义模糊性影响;在构建过程层面,原始语音转文本的噪声干扰、说话人交替的动态标注,以及口语化表达(如停顿、重复)的标准化处理,均为数据清洗和标注带来显著困难。多轮对话的连贯性保持要求进一步增加了标注一致性的维护难度。
常用场景
经典使用场景
在对话系统研究领域,swda_processed数据集因其详尽的对话行为标注而成为经典资源。该数据集记录了自然对话中的言语行为类别,为研究者分析对话结构、理解说话者意图提供了丰富素材。其标注体系覆盖了从陈述、提问到反馈等42种对话行为,特别适合用于训练和评估对话行为分类模型。
解决学术问题
该数据集有效解决了对话系统中对话行为识别这一核心学术问题。通过提供大规模真实对话的精细标注,研究者能够深入探究言语行为与对话结构的关系,验证对话管理算法的有效性。其标注体系为建立统一的对话行为分类标准提供了重要参考,推动了对话系统评估方法的标准化进程。
实际应用
在实际应用中,该数据集支撑了智能客服、虚拟助手等对话系统的开发。基于其训练的模型能够准确识别用户意图,实现更自然的对话交互。在教育培训领域,该数据集还被用于开发对话分析工具,帮助学习者改善沟通技巧。其细致的标注为商业对话分析平台提供了重要基准。
数据集最近研究
最新研究方向
在自然语言处理领域,对话行为标注数据集swda_processed为研究对话系统的语义理解和交互模式提供了重要资源。该数据集包含丰富的对话行为标签,涵盖了从陈述、提问到反馈等多种言语行为类型,为构建更加智能的对话代理奠定了基础。近年来,研究者们利用该数据集探索了基于深度学习的对话行为识别模型,特别是在跨领域对话行为迁移学习和多模态对话行为分析方面取得了显著进展。随着大语言模型的兴起,如何结合swda_processed中的细粒度标注信息来提升对话系统的上下文理解和生成能力,成为当前研究的热点方向。该数据集的应用不仅推动了对话系统技术的发展,也为社交计算和人机交互研究提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作