marcel-gohsen/dstc2
收藏Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/marcel-gohsen/dstc2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: session
dtype: string
- name: caller
dtype: string
- name: turn
dtype: int64
- name: transcript
dtype: string
- name: audio
dtype: audio
- name: intent
sequence: string
- name: slots
sequence: string
- name: cam
dtype: string
splits:
- name: traindev
num_bytes: 669346837.2
num_examples: 15611
- name: test
num_bytes: 412911743.8
num_examples: 9890
download_size: 1026461537
dataset_size: 1082258581.0
configs:
- config_name: default
data_files:
- split: traindev
path: data/traindev-*
- split: test
path: data/test-*
---
提供机构:
marcel-gohsen
原始信息汇总
数据集概述
数据特征
- session: 数据类型为字符串。
- caller: 数据类型为字符串。
- turn: 数据类型为整数(int64)。
- transcript: 数据类型为字符串。
- audio: 数据类型为音频。
- intent: 数据类型为字符串序列。
- slots: 数据类型为字符串序列。
- cam: 数据类型为字符串。
数据分割
- traindev: 包含15611个样本,总字节数为669346837.2。
- test: 包含9890个样本,总字节数为412911743.8。
数据集大小
- 下载大小: 1026461537字节。
- 数据集大小: 1082258581.0字节。
配置
- default 配置包含以下数据文件:
- traindev 分割路径:
data/traindev-* - test 分割路径:
data/test-*
- traindev 分割路径:
搜集汇总
数据集介绍

构建方式
在口语对话系统研究领域,高质量的数据集是推动技术进步的基石。marcel-gohsen/dstc2数据集源自著名的对话状态追踪挑战(DSTC2),专注于餐厅信息查询场景。该数据集通过收集人机对话记录构建而成,每条数据以完整会话(session)为基本单元,包含呼叫者标识(caller)、对话轮次(turn)、转录文本(transcript)及对应的音频文件(audio)。对话状态信息被精细标注为意图(intent)和槽位(slots),并以字符串序列形式存储,同时辅以摄像头状态(cam)元数据。数据被划分为训练验证集(traindev)和测试集(test),分别包含15611和9890个样本,构建过程注重自然对话的多样性与状态标注的完备性。
特点
该数据集的突出特点在于其多模态与结构化标注的深度融合。音频与文本转录的并行提供,使得研究者既能进行语音识别任务,又能开展对话理解与状态追踪研究。意图与槽位的序列化标注方式,精准捕捉了对话中用户目标的动态演变,为构建鲁棒的对话状态追踪模型提供了细粒度监督信号。此外,会话级标识(session)和呼叫者区分(caller)的设计,支持跨轮次上下文建模,而摄像头状态字段则引入了视觉辅助信息,拓展了多模态对话研究的可能性。
使用方法
使用该数据集时,研究者可通过HuggingFace Datasets库直接加载,指定默认配置(default)即可获取traindev和test两个预定义划分。加载后的数据以字典形式呈现,键包括session、caller、turn等字段,其中audio字段为音频对象,可直接用于特征提取。建议将traindev进一步划分为训练集和验证集,以便进行模型调优。针对对话状态追踪任务,可结合transcript文本与intent、slots标签构建序列标注模型;对于语音相关研究,则可利用audio字段进行声学特征分析。数据集的标准化结构降低了预处理复杂度,便于快速复现基线实验或进行方法创新。
背景与挑战
背景概述
在任务型对话系统的研究领域中,数据集的质量与规模直接决定了模型理解用户意图与执行多轮交互的能力。marcel-gohsen/dstc2数据集源自第二届对话系统技术挑战赛(Dialog State Tracking Challenge 2),由剑桥大学等机构于2013年前后发布,旨在推动对话状态追踪这一核心问题的研究。该数据集聚焦于餐厅预订场景,通过标注对话中的用户意图与槽位信息,为构建能够动态追踪对话状态的模型提供了标准化基准。其影响力贯穿对话系统发展的关键阶段,成为评估状态追踪算法性能的经典参考,并启发了后续诸如WoZ、MultiWOZ等大规模数据集的设计理念。
当前挑战
该数据集所应对的核心挑战在于对话状态的高维动态追踪,即模型需在嘈杂的语音转录中准确识别用户意图与槽位值,并随对话轮次更新状态,这对鲁棒性和泛化能力提出了严苛要求。构建过程中,研究人员面临多源异构数据的整合难题:需将语音信号、人工转录文本与结构化标注对齐,同时平衡标注一致性以应对口头表达的歧义性。此外,数据集规模有限(约2.5万轮对话),且场景局限于餐厅预订,限制了模型处理跨领域多轮交互的能力,成为当前任务型对话系统迈向开放域应用时亟待突破的瓶颈。
常用场景
经典使用场景
在对话系统的研究版图中,DSTC2数据集作为任务导向型对话领域的经典基准,其最经典的使用场景聚焦于口语对话状态追踪(Dialogue State Tracking)的建模与评估。该数据集精心收集了真实用户与自动点餐系统之间的多轮交互录音及转录文本,每一轮对话均标注了用户意图、槽位信息及系统动作,为研究者提供了从原始音频到结构化语义标签的完整链条。基于此,学者们得以在统一框架下训练和测试对话状态追踪模型,即从用户话语中精准提取诸如食物类型、价格范围、地点等关键槽位及其取值,从而推动多轮对话中语义解析与记忆推理能力的持续精进。
实际应用
在实际应用层面,DSTC2数据集所承载的对话状态追踪技术已深度融入现代语音助手、客服机器人及智能点餐系统等产品中。例如,在餐饮预订场景中,系统可依据用户连续多轮的自然语言指令,动态更新对菜品偏好、用餐人数及时间的理解,从而提供精准的推荐与订单管理。同样,在金融客服领域,基于该数据集训练的状态追踪模型能够从用户复杂的咨询中抽离出账户类型、业务需求等关键信息,显著减少人工转接次数。这些应用不仅提升了交互效率,还降低了因误解而导致的用户流失,彰显了该数据集从学术验证到产业落地的桥梁作用。
衍生相关工作
围绕DSTC2数据集,衍生出一系列具有里程碑意义的经典工作,深刻塑造了对话系统的研究脉络。其中,基于循环神经网络(RNN)的序列标注模型率先在该数据集上验证了端到端状态追踪的可行性,摒弃了传统流水线式的错误累积。随后,注意力机制与指针网络的引入,使得模型能够更灵活地处理未见过的槽值组合。此外,预训练语言模型如BERT在DSTC2上的微调,证明了大规模无监督知识对口语语义理解的增益。这些工作不仅在本数据集上刷新性能,更将方法论推广至更广泛的对话理解任务,例如DSTC3、MultiWOZ等后续基准,形成了持续迭代的学术生态。
以上内容由遇见数据集搜集并总结生成



