DyadEE
收藏arXiv2026-06-30 更新2026-07-01 收录
下载链接:
https://github.com/anonymoususer276/TRACE
下载链接
链接失效反馈官方服务:
资源简介:
DyadEE是由约翰斯·霍普金斯大学与亚马逊研究院联合构建的用于情感同步检测的双人语音交互数据集,旨在研究对话中情感协调的动态过程。该数据集包含8,500个对话样本,总时长未明确标注,数据源自Seamless Interaction语料库,通过人工筛选和GPT-5辅助抽象出14种情感丰富的对话上下文类别。其创建过程通过语音转换、去噪增强以及伙伴交换和情感矛盾重合成等策略,构建了情感同步与非同步的对比样本。该数据集主要应用于计算副语言学领域,旨在解决语音AI在情感敏感场景中如何适应社交角色和对话上下文的核心问题,为情感同步检测提供关系与上下文双重约束的评估基准。
DyadEE is a dyadic speech interaction dataset for emotion synchronization detection, jointly constructed by Johns Hopkins University and Amazon Research. It is designed to study the dynamic process of emotional coordination in conversations. The dataset contains 8,500 dialogue samples, with its total duration not explicitly specified. Derived from the Seamless Interaction corpus, 14 emotion-rich dialogue context categories were extracted through manual screening and GPT-5-assisted abstraction. During the dataset creation process, contrastive samples of emotion synchronization and asynchronization were constructed via strategies including voice conversion, denoising and enhancement, partner exchange, and emotional contradiction recombination. This dataset is primarily applied in the field of computational paralinguistics, aiming to address the core problem of how speech AI adapts to social roles and dialogue contexts in emotion-sensitive scenarios, and provides an evaluation benchmark with dual constraints of relational and contextual information for emotion synchronization detection.
提供机构:
约翰斯·霍普金斯大学·计算机科学系; 约翰斯·霍普金斯大学·电气与计算机工程系; 亚马逊研究院
创建时间:
2026-06-30
原始信息汇总
TRACE 数据集概述
数据集名称: TRACE(Turn-level Relationship Aware Conversational Entrainment Detection in Dyadic Speech)
数据集地址: https://github.com/anonymoususer276/TRACE
数据集描述
TRACE 是一个专注于双人对话语音中,基于话轮级别的、关系感知的对话交互检测数据集。该数据集旨在研究对话双方在语音交流过程中的交互现象(Conversational Entrainment),即说话人之间在语音特征上相互适应、趋同的行为模式。
主要特点
- 数据类型: 双人对话语音数据
- 任务类型: 话轮级别的交互检测(Turn-level Conversational Entrainment Detection)
- 关注维度: 关系感知(Relationship Aware),意味着数据集中考虑了对话双方的关系对交互行为的影响
- 研究场景: 双人对话(Dyadic Speech)
研究目标
该数据集主要用于支持以下研究方向:
- 对话交互的自动检测与建模
- 人际关系对语音交互行为的影响分析
- 话轮级别的语音特征分析与模式识别
搜集汇总
数据集介绍

构建方式
DyadEE数据集基于Seamless Interaction语料库构建,聚焦于双人语音交互中的情感引导检测。原始语料包含朋友、同事、家庭、浪漫伴侣、同学及兄弟姐妹六类关系标签,并借助GPT-5将细粒度提示抽象为十四种通用对话情境(如支持性挑战、信任决策等)。为模拟非引导交互,研究者采用同情境与跨情境的说话人互换策略,并利用EmotiVoice或CapSpeech对单方音频进行情感矛盾式重合成(如将快乐转为悲伤),从而破坏情感协调性。此外,通过FreeVC进行语音转换、MossFormer2进行降噪,以增强引导对话的声学多样性,降低模型对低层声学伪影的依赖。最终数据集包含8,500个双人语音样本,每个样本均标注对话情境与关系类别。
特点
该数据集的核心特点在于将情感引导检测与社交关系及对话情境显式绑定。与仅依赖全局声学相似度的方法不同,DyadEE将情感引导视为关系条件化和情境条件化的动态过程——例如,工作伙伴间的情感规范受角色约束,而浪漫伴侣则更侧重亲密关系而非情境。数据通过说话人互换和情感矛盾重合成两种手段生成非引导样本,前者保留原始对话结构但破坏协调性,后者引入单方情感不一致的细微扰动,模拟更接近真实对话的引导缺失。此外,语音转换和降噪增强技术确保模型关注交互层面的情感动态,而非说话人身份或信道噪声。
使用方法
DyadEE用于双人语音情感引导的二分类任务,判断一段对话是否呈现情感协调。使用时需将双声道音频切分为固定时长的交替说话人窗口,并通过情感微调后的Whisper编码器提取窗口级声学嵌入,形成时序序列。同时需提供对话情境的SBERT语义嵌入和关系类别的独热编码作为全局条件信号。研究推荐的TRACE框架采用6层LLaMA风格Transformer(双向自注意力)对时序嵌入建模,最终将序列表示与条件和关系特征拼接后经MLP分类。建议按6:4比例划分训练集与测试集,并确保同一说话人不出现在两个子集中以避免数据泄露。
背景与挑战
背景概述
DyadEE数据集由约翰霍普金斯大学的研究团队于2026年提出,旨在解决双人交互语音中情感趋向性检测这一前沿问题。情感趋向性描述对话双方在情感状态上的相互适应与协调过程,其动态演化深受说话人关系类型与对话情境的影响。研究团队依托Seamless Interaction大规模语料库,精心筛选出涵盖朋友、同事、家人、恋人、同学和兄弟姐妹六类关系标签的双人对话,并将原始提示词归纳为14种情境类别。该数据集的核心贡献在于为情感趋向性检测提供了关系与情境双重条件约束的评测基准,填补了现有研究仅关注声学特征而忽略社会关系与交互情境的空白。
当前挑战
情感趋向性检测面临的核心挑战在于情感协调并非简单的镜像反射,而是随说话人关系和对话情境动态变化的复杂现象。在构建DyadEE数据集过程中,研究者需要解决两个关键难题:其一,如何生成自然的非趋向性交互样本——通过同一情境内或跨情境的伙伴互换、以及情感矛盾式语音合成,构造出情感协调被破坏的双人对话;其二,如何避免模型依赖说话人身份或录音信道等浅层声学伪影——采用语音转换与降噪增强技术,在保留交互结构的同时引入说话人级别声学变异。此外,该研究还揭示了关系条件对不同社交角色情感趋向性检测的非均匀增益,如何在复杂社交网络中准确建模情感趋向性仍是一个开放性挑战。
常用场景
经典使用场景
在计算副语言学和交互式语音分析领域,DyadEE数据集被广泛用于二元语音交互中的情感趋同检测任务。该数据集通过保留自然对话中的情感同步片段与采用伙伴交换、情感重合成等策略构建的趋同破坏样本,为研究者提供了区分真实情感协同与人为干扰交互的基准平台。典型用法是将双通道音频流建模为交替说话人窗口的时间序列嵌入,再结合对话背景与社会关系标签进行二分类判定,从而评估交互中情感协调的程度与自然度。
衍生相关工作
基于DyadEE数据集,研究团队进一步提出了TRACE框架,该框架采用情感微调的Whisper编码器提取窗口级声学嵌入,并通过LLaMA风格的双向自注意力模块建模交互时序,联合对话背景与社会关系进行趋同分类,在测试集上达到了97.01%的准确率。该工作还系统分析了不同关系类别与背景情境对检测增益的差异化影响,揭示了同事群体与浪漫伴侣关系对社交信号依赖程度的显著差异,为后续构建更细粒度、跨文化或多模态的情感趋同模型奠定了方法论基础。
数据集最近研究
最新研究方向
在情感对齐检测的前沿探索中,DyadEE数据集聚焦于双人对话语音中的情感夹带(emotional entrainment)现象,突破了传统仅依赖声学特征的局限。其最新研究方向在于将人际交互视为时序性窗口级声学嵌入序列,并结合对话语境(如道歉、支持寻求)与社会关系(如同事、伴侣)作为条件化信号,以区分真实情感协调与人为破坏的交互。这一方向回应了语音AI代理在情感敏感领域(如心理健康支持)部署时对关系适应性行为的迫切需求。通过引入伙伴交换与情感重合成等策略构建负样本,DyadEE推动了情感夹带检测从全局相似度评分向情境化、关系化建模的转变,其TRACE框架在联合条件下达到97.01%的准确率,显著提升了对话情感理解的实际应用价值。
相关研究论文
- 1TRACE: Temporal Relationship-Aware Conversational Entrainment Detection in Dyadic Speech约翰斯·霍普金斯大学·计算机科学系; 约翰斯·霍普金斯大学·电气与计算机工程系; 亚马逊研究院 · 2026年
以上内容由遇见数据集搜集并总结生成



