HumDial

github2025-10-09 更新2025-10-10 收录

下载链接：

https://github.com/ASLP-lab/Hum-Dial

下载链接

链接失效反馈

官方服务：

资源简介：

发布的中英文训练集包含3轮、4轮和5轮对话，关注情感动态和情感变化的潜在原因。数据集包含约100小时的音频数据，仅录制问题部分，回答以文本形式提供参考。数据按任务和对话轮数组织在train/zh/目录下

The released Chinese-English bilingual training dataset includes dialogues with 3, 4, and 5 turns, focusing on emotional dynamics and the underlying causes of emotional changes. It contains approximately 100 hours of audio data, where only the question segments are recorded, and the corresponding responses are provided as textual references. The dataset is structured under the train/zh/ directory based on task categories and dialogue turn counts.

创建时间：

2025-10-07

原始信息汇总

ICASSP2026 HumDial Challenge 数据集概述

数据集基本信息

官方仓库地址：https://github.com/ASLP-lab/Hum-Dial
挑战赛官网：https://aslp-lab.github.io/HumDial-Challenge/
语言版本：中文和英文双语
数据总量：超过200小时音频数据

赛道一：情感智能

挑战任务

任务1：情感识别 - 识别用户表达的表层和深层情感
任务2：情感轨迹总结 - 准确识别并简洁总结多轮对话中用户的情感变化
任务3：综合理解与洞察 - 评估模型是否能综合所有对话信息提供深刻解释
任务4：多模态共情评估 - 评估文本和音频的共情能力及自然度
任务5：情感语音合成 - 生成具有指定情感的自然语音

数据集结构

训练集

数据量：约100小时音频数据
数据特点：仅录制问题部分，回答以文本格式提供
对话轮数：包含3轮、4轮和5轮对话

中文数据目录结构：

train/zh/ ├── task1/ # 单轮对话，判断用户情感状态 ├── task2_3/ # 3轮对话，用户询问自身情感变化 ├── task2_4/ # 4轮对话，用户询问自身情感变化 ├── task2_5/ # 5轮对话，用户询问自身情感变化 ├── task3_3/ # 3轮对话，用户询问情感深层原因 ├── task3_4/ # 4轮对话，用户询问情感深层原因 ├── task3_5/ # 5轮对话，用户询问情感深层原因 └── 对应jsonl文件

英文数据目录结构与中文相同

开发集

中文数据目录结构：

dev/zh/ ├── task2/ # 3/4/5轮对话，评估模型响应文本得分 ├── task3/ # 3/4/5轮对话，评估模型响应文本得分 ├── task4/ # 3/4/5轮对话，评估模型响应音频得分 └── 对应jsonl文件

英文数据目录结构与中文相同

评估指标

任务2：情感轨迹总结

Accuracy_Completeness：评分1/3/5
Depth_Granularity：评分1/3/5
Added_Value：评分1/3/5

任务3：综合理解与洞察

Information_Integration：评分1/3/5
Insight_RootCause：评分1/3/5
Clarity_Logic：评分1/3/5

任务4：多模态共情评估

textual_empathy_insight：评分1-5
vocal_empathy_congruence：评分1-5
audio_quality_naturalness：评分1-5

基线系统

基础框架：OpenS2S
评估模型：Qwen/Qwen3-Omni-30B-A3B-Instruct

赛道二：全双工交互

挑战任务

打断类别

询问 - 用户基于模型响应提出后续问题
否认 - 用户使用否定语句表达不满或不同意
重复 - 用户要求重复模型先前响应
转移 - 用户开启新话题
等待 - 用户要求模型停止说话

拒绝类别

背景音 - 用户发出简短插话
暂停 - 用户因思考或犹豫导致语义不完整
他人对用户说话 - 其他说话者或背景噪音
对他人说话 - 用户突然转向与他人交谈

数据集结构

训练集

数据量：超过107小时真实人类录音
说话人数量：超过100人
语言：中文和英文

中文数据目录结构：

train/zh/ ├── ask/ ├── backchannel/ ├── deny/ ├── others_talk_to_user(background speech)/ ├── pause/ ├── repeat/ ├── shift/ └── wait/

英文数据目录结构与中文相同

开发集

测试样本：每个子任务200个样本（中英文各100个）

中文数据目录结构：

dev/zh/ ├── ask/ ├── backchannel/ ├── deny/ ├── others_talk_to_user(background speech)/ ├── pause/ ├── repeat/ ├── shift/ ├── talk_to_others/ └── wait/

英文数据目录结构与中文相同

评估指标

打断场景

响应率
停止延迟
响应延迟

拒绝场景

拒绝率
提前打断率
首次响应延迟

基线系统

基础框架：Easy Turn 和 OSUM-EChat
集成方式：将OSUM-EChat与Easy Turn集成实现全双工能力

数据下载

主要下载地址：https://drive.google.com/drive/folders/1mXjQi_uPPDhwhbvxKsMCqNMtm89ab6Zn
备用下载地址：https://www.123912.com/s/QlDejv-h7anA

搜集汇总

数据集介绍

构建方式

在情感计算研究领域，HumDial数据集通过精心设计的多轮对话结构构建而成。该数据集包含中英文双语训练集与开发集，涵盖3至5轮对话场景，聚焦于情感动态变化及其深层原因分析。数据采集过程中仅录制用户提问部分的音频，回答内容以文本形式提供，形成了约100小时的音频数据与对应文本标注的有机结合。

使用方法

研究实践中，该数据集通过分层任务架构支持系统性探索。开发者可利用训练集进行模型优化，通过开发集验证情感轨迹总结的准确性与完整性。对于多模态共情评估，需结合文本理解与语音合成技术，使用指定评估模型进行多维指标量化。数据集采用标准化文件结构组织，支持研究者按任务类型灵活调用不同轮次对话数据，实现端到端的模型训练与评估流程。

背景与挑战

背景概述

人机对话领域近年来致力于构建更具情感智能与自然交互能力的系统，HumDial数据集应运而生。该数据集由ASLP实验室主导，专为ICASSP2026挑战赛设计，聚焦于情感理解与全双工交互两大核心问题。其构建涵盖中英双语多轮对话，包含约100小时音频数据，旨在推动对话系统在情感轨迹分析、深层心理洞察及实时交互响应等方面的研究。该数据集的发布为情感计算与人机交互领域提供了标准化评测基准，显著促进了多模态情感建模技术的发展。

当前挑战

HumDial数据集面临的核心挑战在于情感深层次理解的复杂性，需同时识别表层与深层情绪并精准追踪多轮对话中的情绪演变轨迹。构建过程中需克服多模态数据对齐的难题，确保音频与文本情感标签的一致性，同时处理中英双语语境下的文化差异对情感表达的影响。全双工交互任务则要求模型在实时对话中平衡中断响应与拒绝判断的精度，涉及语音活动检测、语义完整性判断等多重技术瓶颈。

常用场景

经典使用场景

在对话系统研究领域，HumDial数据集为情感智能与全双工交互两大核心方向提供了标准化评测基准。该数据集通过多轮对话场景设计，特别聚焦于情感轨迹追踪与实时交互响应，其中情感智能赛道要求模型识别表层与深层情绪变化，并生成具有情感共鸣的语音响应；全双工交互赛道则模拟真实对话中的打断与拒绝场景，推动对话系统实现类人化的自然交互体验。

解决学术问题

HumDial有效解决了对话系统中情感理解深度不足与交互实时性欠缺两大关键问题。在情感维度，数据集通过标注情绪强度变化轨迹与潜在心理动因，突破了传统情感识别仅关注表层情绪的局限；在交互维度，其设计的九类全双工场景系统化覆盖了现实对话中的中断处理与噪声过滤需求，为构建具有持续注意力与上下文感知能力的对话模型提供了理论支撑与实践标准。

实际应用

该数据集在智能客服、心理健康辅助、虚拟伴侣等实际场景中展现重要价值。基于情感轨迹分析能力，系统可动态调整对话策略以实现情感陪伴；全双工交互技术则使智能助手能自然处理用户突发提问或背景干扰，显著提升服务流畅度。在教育培训领域，该技术还能构建具有情感反馈的教学助手，通过实时交互优化学习体验。

数据集最近研究