HumDial-EIBench

github2026-04-13 更新2026-04-22 收录

下载链接：

https://github.com/ASLP-lab/HumDial-EIBench

下载链接

链接失效反馈

官方服务：

资源简介：

HumDial-EIBench是一个用于评估音频语言模型（ALMs）是否真正理解语音中情感的多轮情感智能基准测试。该基准测试基于ICASSP 2026 HumDial Challenge的真实人类对话记录，包含中文和英文子集。

HumDial-EIBench is a multi-turn emotional intelligence benchmark designed to assess whether Audio Language Models (ALMs) truly comprehend emotions conveyed in speech. This benchmark is constructed using real human dialogue transcripts from the ICASSP 2026 HumDial Challenge, and it includes both Chinese and English subsets.

创建时间：

2026-04-13

原始信息汇总

HumDial-EIBench 数据集概述

数据集简介

HumDial-EIBench 是一个用于评估音频语言模型情感理解能力的人类录制多轮对话情感智力基准。该基准旨在诊断模型是否真正理解语音中的情感，而非依赖文本转录的捷径。数据集基于 ICASSP 2026 HumDial 挑战赛的真实人类录制对话构建，包含中文和英文子集。

数据集特点

数据真实性：采用真实人类录制的多轮音频，而非合成语音。
评估目标性：通过客观的对抗性多项选择题任务进行以推理为重点的评估。
任务设计：包含专门的声学-语义冲突任务，并分别诊断文本共情与声学共情。
核心目标：在记忆、推理、生成和跨模态鲁棒性方面诊断音频语言模型的情感智力。

基准概览

总样本量：1,077
语言：中文 + 英文

任务构成

任务	类型	中文/英文样本量	对话轮数	主要评估指标
任务1：情感轨迹检测	多项选择题	150 / 150	3-5	准确率
任务2：隐式因果推理	多项选择题	134 / 149	3-5	准确率
任务3：共情反应生成	开放生成	144 / 150	3-5	LLM + 人工评估
任务4：声学-语义冲突	多项选择题	100 / 100	1	准确率
总计		528 / 549

任务详情

任务1：情感轨迹检测

追踪跨对话轮次的情感变化（例如，E_t1 -> E_t2 -> E_t3），而非对孤立话语进行分类。

任务2：隐式因果推理

从分散的上下文线索中推断潜在的情感触发因素。多项选择题格式有助于减少评估者的主观性。

任务3：共情反应生成

从三个维度评估生成的反应：

D1：文本共情与洞察力（LLM 评估，1-5分）
D2：声音共情与一致性（人工评分，1-5分）
D3：音频质量与自然度（人工评分，1-5分）

任务4：声学-语义冲突

测试当文本情感与声音情感相矛盾（例如，类似讽刺的情况）时的鲁棒性，以暴露文本主导偏见。

关键发现

大多数音频语言模型在多轮情感追踪和隐式因果推理方面仍存在困难。
文本共情与声学共情之间存在明显的解耦。
所有测试模型在声学-语义冲突下都表现出显著的文本主导偏见。

数据与代码访问

数据集即将发布。

评估使用

任务3（共情生成）评分

使用 eval/eval_task3.py 对模型输出的 D1/D2/D3 维度进行评分，并写入每个样本及汇总结果。

输入格式（`jsonl`）

jsonc { "dialogue_id": "sample_001", "turns": [ { "input_emotion": "sad", "input_text": "Ive been feeling really overwhelmed lately...", "response_text": "It sounds like youre carrying a lot right now.", "response_audio": "outputs/sample_001_turn1.wav" } ] }

运行命令

bash python eval/eval_task3.py --model Qwen3-Omni-30B-A3B-Instruct --input_file results/task3_outputs.jsonl --output_file results/task3_scores.jsonl

该脚本自动识别目标评估轮次（第二个非中性轮次）并根据先前轮次构建上下文。

环境说明：此脚本需要 GPU 运行时和 vLLM。运行前请在 eval/eval_task3.py 中设置本地评估检查点路径。

联系

如有问题或合作意向，请在本代码库中提交议题。

搜集汇总

数据集介绍

构建方式

HumDial-EIBench数据集的构建源于对音频语言模型情感智能评估的深度需求，其核心基础是ICASSP 2026 HumDial挑战赛中采集的真实人类多轮对话录音。这些原始音频数据经过精心筛选与处理，形成了涵盖中英双语的数据子集。构建过程采用三阶段流水线设计，首先从真实对话中提取情感丰富的语音片段，随后通过专业标注构建四项针对性评估任务，包括情感轨迹检测、隐含因果推理、共情回应生成以及声学语义冲突检测，最终形成包含1077个样本的结构化基准。

特点

该数据集的显著特征在于其评估范式的创新性与数据来源的真实性。它摒弃了传统合成语音的局限，完全采用人类自然对话录音，确保了情感表达的真实性与复杂性。数据集设计了四项互补任务，其中前三项聚焦多轮对话中的情感演变追踪、隐含因果推理与共情生成，第四项则专门引入声学语义冲突情境，用以揭示模型对文本信息的过度依赖偏差。这种设计实现了对音频语言模型情感理解能力的多维度、可量化诊断，尤其强调将文本共情与声学共情进行分离评估。

使用方法

使用HumDial-EIBench进行评估时，需针对其四项任务采用不同的方法。对于前两项多项选择题任务，可直接计算模型预测的准确率。第三项共情回应生成任务则需结合自动化与人工评估：利用提供的评估脚本，调用大型语言模型对生成回应的文本共情维度进行评分，同时需组织人工评审对声学共情与音频自然度进行独立打分。第四项冲突检测任务同样通过准确率衡量模型鲁棒性。评估过程要求模型处理原始音频输入，避免依赖文本转录，从而真正检验其从语音中理解情感的能力。

背景与挑战

背景概述

HumDial-EIBench数据集由ICASSP 2026 HumDial Challenge的研究团队于近期创建，旨在评估音频语言模型在真实多轮对话中理解情感的能力。该数据集聚焦于情感智能的核心研究问题，即模型能否超越文本转录的局限，从语音的声学特征中捕捉情感的动态演变与隐含因果。通过整合中英文真实人类录音，它不仅填补了现有基准在真实性、多轮交互与客观评估方面的空白，更推动了音频语言模型在情感计算、人机交互及多模态推理等领域的深入探索。

当前挑战

该数据集致力于解决音频语言模型情感智能评估中的关键挑战：一是传统基准常依赖合成语音或单轮设置，难以反映真实对话中情感的连续性与复杂性；二是主观开放生成任务易混淆推理能力与生成质量，导致评估偏差。在构建过程中，挑战包括采集高质量多轮人类对话录音、设计对抗性多项选择任务以分离文本与声学共情，以及创建声学-语义冲突任务以揭示模型对文本的过度依赖倾向。

常用场景

经典使用场景

在情感智能研究领域，HumDial-EIBench数据集以其真实人类录制的多轮对话音频，为评估音频语言模型的情感理解能力提供了经典场景。该数据集通过包含中英文子集，支持跨语言情感分析，其核心任务如情感轨迹检测和隐式因果推理，要求模型追踪对话中情感的动态演变，并基于上下文线索推断潜在情感触发因素，从而深入检验模型在多轮交互中的情感认知与推理性能。

解决学术问题

该数据集有效解决了现有ALM基准中普遍存在的三大问题：合成语音缺乏真实性、单轮设置忽略情感演变、主观评分混淆推理与生成质量。通过引入真实人类多轮音频、客观对抗性多选题任务以及声学-语义冲突检测，HumDial-EIBench实现了对模型情感记忆、推理、生成及跨模态鲁棒性的系统诊断，为情感智能研究提供了可量化、可复现的评估框架，推动了音频语言模型在情感理解领域的理论进展。

衍生相关工作

基于HumDial-EIBench数据集，学术界衍生了一系列经典研究工作，主要集中在多模态情感理解模型的优化与评估方法创新上。例如，研究者利用其多轮情感轨迹检测任务，开发了基于注意力机制的情感状态追踪模型；结合隐式因果推理任务，提出了融合上下文推理的情感触发识别算法。此外，该数据集的声学-语义冲突设计也激发了针对模型文本主导偏见的矫正技术研究，推动了情感智能评估向更精细、更鲁棒的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集