five

Spoken DialogSum

收藏
arXiv2025-12-17 更新2025-12-18 收录
下载链接:
https://fatfat-emosum.github.io/EmoDialog-Sum-Audio-Samples/
下载链接
链接失效反馈
官方服务:
资源简介:
Spoken DialogSum是由约翰霍普金斯大学团队构建的首个融合语音、文本与副语言信息的多模态对话摘要数据集。该数据集包含13,460条情感丰富的对话(总时长约165小时),每条对话均配有事实性摘要和情感聚焦摘要,并标注了说话人年龄、性别及 utterance 级情感标签。数据通过两阶段生成:首先利用LLM将DialogSum文本改写成包含自然填充词和反馈词的对话,再通过Zonos TTS引擎合成带副语言标签的语音。该数据集旨在推动端到端语音建模研究,解决现有文本摘要数据缺乏声学信息、语音数据缺乏摘要标注的双向局限,适用于情感感知的对话摘要、多模态语言模型训练等前沿领域。

Spoken DialogSum is the first multi-modal dialogue summarization dataset integrating speech, text and paralinguistic information, constructed by the team from Johns Hopkins University. This dataset contains 13,460 emotionally rich dialogues with a total duration of approximately 165 hours. Each dialogue is equipped with both a factual summary and an emotion-focused summary, and is annotated with speakers’ age, gender and utterance-level emotion labels. The dataset is generated through a two-stage pipeline: first, LLMs are used to rewrite the original DialogSum text into dialogues containing natural fillers and conversational feedback words; then, the Zonos TTS engine is employed to synthesize speech with paralinguistic labels. This dataset aims to advance end-to-end speech modeling research, addressing the two-way limitations of existing datasets: text-based summarization datasets lack acoustic information, while speech datasets lack summarization annotations. It is applicable to cutting-edge research fields such as emotion-aware dialogue summarization and multi-modal language model training.
提供机构:
约翰霍普金斯大学语言与语音处理中心
创建时间:
2025-12-17
原始信息汇总

Spoken DialogSum 数据集概述

数据集名称

Spoken DialogSum

核心介绍

Spoken DialogSum 是首个将原始对话音频与事实摘要、情感丰富摘要以及话语级说话者年龄、性别和情感标签对齐的语料库。

数据集构成与规模

  • 包含 13,460 个情感多样化的对话。
  • 每个对话均配有一个事实摘要和一个情感聚焦摘要。

构建方法

构建过程分为两个阶段:

  1. LLM重写与标注:首先,大型语言模型(LLM)使用类似Switchboard的填充词和反馈词重写DialogSum脚本,并为每个话语标注情感、音高和语速。
  2. 语音合成:其次,富有表现力的文本转语音(TTS)引擎根据标注后的脚本合成语音,并与副语言标签对齐。

数据样本内容示例

  • 转录文本:包含带有人物标识(如#Person1#)和口语化填充词(如“uh”、“you know”)的对话文本。
  • 音频:与转录文本对应的对话音频。
  • 说话者信息:标注每位说话者的性别和年龄组(例如:男性,青年;女性,中年)。
  • 情感丰富摘要:总结对话中表达的情感(例如:两位说话者都对奥林匹克公园和体育场表达了快乐和惊讶)。
  • 事实摘要:客观总结对话的主要内容和事实(例如:#Person1#和#Person2#游览奥林匹克公园和体育场,对其规模和设施表示惊叹,并讨论了完工情况)。

基线实验发现

实验表明,与级联的ASR-LLM系统相比,音频-LLM模型将情感摘要的ROUGE-L分数相对提升了28%,这证实了端到端语音建模的价值。

数据发布状态

数据集即将发布。

搜集汇总
数据集介绍
main_image_url
构建方式
在语音对话摘要领域,现有数据集往往割裂了语音信号与摘要文本之间的关联,难以支持对副语言线索的建模。Spoken DialogSum的构建采用了两阶段创新流程:首先,利用大型语言模型对原始DialogSum脚本进行风格转换,融入SwitchBoard语料库中的自然填充词、不流畅表达及反馈性回应,并为每个话语标注情感、音高和语速;随后,通过条件性文本转语音引擎,依据标注脚本合成富有表现力的多说话人语音,确保语音与副语言标签精确对齐。这一流程生成了13,460段情感多样的对话,每段均配有事实摘要与情感摘要。
特点
该数据集的核心特点在于其多模态与情感丰富的标注体系。作为首个将原始多说话人音频与事实摘要、情感摘要同时对齐的大规模语料库,它不仅提供了对话级的情感聚焦摘要,还包含了话语级别的说话人年龄、性别及情感标签。数据集中超过40%的话语承载了明确的情感色彩,涵盖了快乐、悲伤等多种类别,情感分布较为均衡,突破了以往语料库情感标签单一或缺失的局限。此外,合成语音在自然度与情感一致性方面获得了接近真人录音的评价,兼具大规模与高质量的优点。
使用方法
Spoken DialogSum支持对语音对话理解进行多维度评估。研究者可将其用于三项核心任务:纯语义的事实摘要生成,模型仅依据文本内容提炼要点;纯副语言线索的属性预测,模型直接从音频中推断说话人的年龄、性别及情感;以及语义与副语言线索融合的情感丰富摘要生成,要求模型综合理解对话内容与语音中的情感表达。通过比较级联式语音识别结合语言模型与端到端音频语言模型等不同范式在这些任务上的表现,能够有效评估模型在多模态信息融合与情感理解方面的能力。
背景与挑战
背景概述
Spoken DialogSum是由约翰斯·霍普金斯大学语言与语音处理中心的研究团队于2025年提出的首个大规模语音对话摘要数据集,旨在填补语音、摘要与副语言线索关联数据的空白。该数据集基于文本对话摘要数据集DialogSum,通过引入大语言模型进行风格转换与副语言标注,并利用条件性文本转语音技术合成语音,最终构建了包含13,460段情感多样性对话的语料库。其核心研究问题在于探索如何实现端到端的语音建模,以融合语义内容与声学信息,从而推动语音对话摘要领域向情感感知与多模态理解方向发展,对音频语言模型与对话系统研究产生了显著影响。
当前挑战
Spoken DialogSum所解决的领域挑战在于语音对话的情感感知摘要,即如何从包含填充词、不流利表达及副语言特征的原始对话音频中,同时提取事实内容与情感基调,并生成连贯的摘要。构建过程中的挑战主要体现在两方面:一是如何将脚本化对话转换为具有自然交互特征的真实对话,需通过大语言模型引入Switchboard风格的填充词与反馈词,并保持语义对齐;二是在语音合成阶段需确保合成语音在情感表达、韵律特征上的自然性与一致性,同时需精准处理话语重叠与时间安排,以模拟真实对话的时序特征。
常用场景
经典使用场景
在语音对话理解与生成的研究领域,Spoken DialogSum数据集为端到端音频语言模型提供了关键的多模态基准测试平台。该数据集通过将原始对话音频与事实摘要、情感摘要以及副语言线索对齐,构建了一个能够同时评估语义理解与声学特征融合能力的综合环境。其最经典的使用场景在于训练和评测能够直接处理语音输入并生成情感丰富摘要的音频大语言模型,例如WavLLM和SALMONN等架构,验证了联合建模语音与文本信息在捕捉对话情感基调方面的显著优势。
衍生相关工作
基于Spoken DialogSum数据集的特性,已衍生出一系列探索音频与语言联合建模的经典研究工作。例如,论文中提及的WavLLM、Qwen-Audio、SALMONN等端到端音频语言模型均利用此类多模态数据进行训练与评估,验证了直接建模语音对于提升情感摘要质量的有效性。这些工作共同推动了从级联式语音识别-语言模型管道向统一的多模态理解框架的范式转变。此外,该数据集也为研究副语言线索(如音高、语速)与离散情感标签之间的关联提供了新的实验平台。
数据集最近研究
最新研究方向
在口语对话摘要领域,Spoken DialogSum数据集的推出标志着研究重心从纯文本摘要向多模态情感感知摘要的深刻转变。该数据集通过合成语音与副语言线索的对齐,为端到端音频语言模型提供了首个大规模、情感丰富的基准,直接推动了音频-文本联合建模的前沿探索。当前研究热点聚焦于利用该数据集训练模型直接融合语音中的情感韵律与语义内容,以生成更具表现力的情感摘要,实验表明端到端音频模型相比级联系统在情感摘要任务上能带来约28%的性能提升。这一进展不仅深化了对口语对话中非语言信息作用的理解,也为开发更自然、更具同理心的人机交互系统奠定了关键数据基础。
相关研究论文
  • 1
    Spoken DialogSum: An Emotion-Rich Conversational Dataset for Spoken Dialogue Summarization约翰霍普金斯大学语言与语音处理中心 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作