HumDial-EIBench

Name: HumDial-EIBench
Creator: 西北工业大学·计算机学院音频、语音与语言处理组; 南京大学; AISHELL
Published: 2026-04-13 23:06:05
License: 暂无描述

arXiv2026-04-13 更新2026-04-15 收录

下载链接：

https://github.com/ASLP-lab/HumDial-EIBench

下载链接

链接失效反馈

官方服务：

资源简介：

HumDial-EIBench是由西北工业大学等机构联合构建的多轮对话情感智能评测基准，基于ICASSP 2026 HumDial挑战赛的真实人类录音数据，包含150组中英文多轮对话（总计1077条样本），涵盖情感轨迹检测、因果推理等四项任务。数据集通过精心设计的对抗性多选题形式，有效规避主观评分偏差，并首次引入声学-语义冲突任务以评估跨模态一致性。其数据构建分为脚本设计、真人演绎和质量控制三阶段，严格保留自然对话中的副语言特征，适用于评测音频语言模型在情感理解、多轮推理及跨模态融合方面的性能瓶颈。

提供机构：

西北工业大学·计算机学院音频、语音与语言处理组; 南京大学; AISHELL

创建时间：

2026-04-13

原始信息汇总

HumDial-EIBench 数据集概述

数据集简介

HumDial-EIBench 是一个用于评估音频语言模型情感理解能力的人类录制多轮对话情感智力基准。该基准旨在诊断模型是否真正理解语音中的情感，而非依赖文本转录的捷径。数据来源于 ICASSP 2026 HumDial 挑战赛的真实人类录制对话，包含中文和英文子集。

核心特点

数据真实性：采用真实人类录制的多轮音频，而非合成语音。
评估任务设计：包含客观对抗性多项选择题任务，侧重于推理能力评估。
专项诊断任务：设有声学-语义冲突任务，以测试跨模态鲁棒性。
情感维度分离：分别诊断文本共情能力与声学共情能力。

基准概览

总样本量：1,077
支持语言：中文与英文
核心目标：在记忆、推理、生成和跨模态鲁棒性方面诊断音频语言模型的情感智力

任务构成

任务	类型	中文/英文样本数	对话轮数	主要评估指标
任务1：情感轨迹检测	多项选择题	150 / 150	3-5	准确率
任务2：隐式因果推理	多项选择题	134 / 149	3-5	准确率
任务3：共情回应生成	开放生成	144 / 150	3-5	LLM + 人工评估
任务4：声学-语义冲突	多项选择题	100 / 100	1	准确率
总计		528 / 549

任务详情

任务1：情感轨迹检测

追踪对话轮次间的情感变化（例如 E_t1 -> E_t2 -> E_t3），而非对孤立话语进行分类。

任务2：隐式因果推理

从分散的上下文线索中推断潜在的情感触发因素。多项选择题形式有助于减少评估者的主观性。

任务3：共情回应生成

从三个维度评估生成的回应：

D1：文本共情与洞察力（由LLM评判，1-5分）
D2：声音共情与一致性（人工评分，1-5分）
D3：音频质量与自然度（人工评分，1-5分）

任务4：声学-语义冲突

测试当文本情感与声音情感相矛盾（例如类似讽刺的情况）时的模型鲁棒性，以暴露文本主导偏见。

关键发现

大多数音频语言模型在多轮情感追踪和隐式因果推理方面仍存在困难。
文本共情与声学共情之间存在明显的解耦。
所有测试模型在声学-语义冲突下都表现出显著的文本主导偏见。

数据与代码访问

数据集即将发布。

评估使用

任务3（共情生成）评分

使用 eval/eval_task3.py 脚本对模型输出的 D1/D2/D3 维度进行评分，并写入每个样本及汇总结果。

输入格式（`jsonl`）

jsonc { "dialogue_id": "sample_001", "turns": [ { "input_emotion": "sad", "input_text": "Ive been feeling really overwhelmed lately...", "response_text": "It sounds like youre carrying a lot right now.", "response_audio": "outputs/sample_001_turn1.wav" } ] }

运行命令

bash python eval/eval_task3.py --model Qwen3-Omni-30B-A3B-Instruct --input_file results/task3_outputs.jsonl --output_file results/task3_scores.jsonl

该脚本自动识别目标评估轮次（第二个非中性轮次）并根据先前轮次构建上下文。

环境说明：此脚本需要 GPU 运行时和 vLLM。运行前请在 eval/eval_task3.py 中设置本地评判检查点路径。

联系方式

如有问题或合作意向，请在本代码库中提交议题。

搜集汇总

数据集介绍

构建方式

在音频语言模型情感智能评估领域，HumDial-EIBench 的构建过程体现了严谨的科学设计。该数据集以 ICASSP 2026 HumDial 挑战赛的真实人类录制多轮对话为基础，通过三阶段流程构建。首先，基于特定场景指令，利用辅助大语言模型生成结构化的对话脚本，涵盖情感轨迹追踪、因果推理及跨模态冲突等任务导向。随后，由52名说话者自然演绎这些脚本，保留了真实对话中的韵律变化、停顿等副语言特征，并经过严格的质量控制以确保音频纯净度。最后，为减少主观评分偏差，将开放式的理解任务重构为客观的多项选择题，并针对每个样本精心设计了具有对抗性的干扰选项，从而精准剥离模型的认知推理能力与表面生成流畅度。

特点

HumDial-EIBench 的核心特征在于其评估框架的全面性与真实性。区别于依赖合成语音的现有基准，该数据集完全基于高质量的人类录制对话，确保了情感演变的自然连续性与声学细微差别的真实性。其任务设计覆盖了多轮情感轨迹检测、隐式因果推理、共情回应生成以及创新的声学-语义冲突识别，形成了一个多维度的评估体系。尤为突出的是，它通过引入对抗性干扰项的多项选择题形式，有效规避了传统大语言模型作为评判者所带来的主观不稳定性，为客观衡量模型深层次上下文理解能力提供了可靠途径。

使用方法

该数据集旨在系统评估音频语言模型的情感智能，其使用方法遵循结构化的任务流程。评估者将多轮对话的连续音频输入待测模型，模型需依次完成四项任务：在情感轨迹检测与因果推理任务中，从合成语音的选项中选择正确答案；在共情回应生成任务中，生成兼具语义深度与声学适宜性的语音回复；在声学-语义冲突任务中，识别文本语义与声学情感相矛盾时的真实情感状态。任务的评估结合了客观准确率计算与大语言模型及人工评分，其中共情生成任务从文本共情、声学共情及自然度三个维度进行细致度量，从而全面诊断模型在多轮交互与跨模态整合中的能力短板。

背景与挑战

背景概述

音频语言模型的情感智能评估是推动人机自然交互发展的关键环节。由西北工业大学音频、语音与语言处理组联合多家机构于2026年提出的HumDial-EIBench数据集，旨在系统评估音频语言模型在多轮对话中的情感智能。该数据集基于ICASSP 2026 HumDial挑战赛的真实人类录制多轮对话构建，核心研究聚焦于模型对情感轨迹追踪、隐式因果推理、共情回应生成以及声学-语义冲突识别等能力的客观度量。通过将开放式任务重构为包含对抗性干扰项的多选题，该数据集有效规避了传统评估中LLM作为评判者所引入的主观不稳定性，为音频语言模型的情感理解与表达提供了更为可靠和全面的评测基准，对推动端到端语音对话系统的情感对齐研究具有重要影响力。

当前挑战

HumDial-EIBench所针对的核心领域挑战在于如何准确评估音频语言模型在复杂多轮对话中理解和表达情感的真实能力，这超越了传统的单轮语音情感识别或合成语音评测。具体构建挑战包括：在数据采集阶段，需设计并录制自然且包含明确情感演变与因果线索的多轮真人对话，同时确保语音质量与场景多样性；在任务设计阶段，需将开放式的共情生成与推理任务转化为客观的多选题，并精心构建具有足够迷惑性的对抗性干扰项，以严格区分模型的深层认知能力与表面生成流畅性；此外，专门引入的声学-语义冲突识别任务，要求构建文本语义与语音情感相互矛盾的样本，用以揭示模型在处理跨模态信息时可能存在的文本主导偏见。

常用场景

经典使用场景

在音频语言模型的情感智能评估领域，HumDial-EIBench作为一项基于真实人类录音的多轮对话基准，其经典使用场景集中于系统化诊断模型在复杂交互中的情感理解能力。该数据集通过精心设计的四项任务，包括情感轨迹检测、隐式因果推理、共情响应生成以及声学语义冲突识别，为研究者提供了全面评估模型多轮情感记忆与跨模态整合性能的标准化框架。其采用对抗性多项选择题的客观评估机制，有效剥离了生成流畅度对认知推理能力的干扰，使得模型在真实对话情境下的情感智能得以精准量化。

衍生相关工作

HumDial-EIBench的推出催生了一系列围绕音频语言模型情感智能的衍生研究。其基于ICASSP 2026 HumDial Challenge的架构，为后续多轮情感对话数据集的构建提供了范式参考。相关经典工作包括对模型跨模态解耦现象的深入分析，以及针对文本主导偏见的矫正训练方法探索。该基准亦激励了新一代评估指标的发展，如更稳定的自动共情评分机制与扩展多轮冲突场景的评估框架，持续推动着音频语言模型在情感理解与表达方面的算法进步与理论创新。

数据集最近研究