HumDial-EIBench
收藏HumDial-EIBench 数据集概述
数据集简介
HumDial-EIBench 是一个用于评估音频语言模型情感理解能力的人类录制多轮对话情感智力基准。该基准旨在诊断模型是否真正理解语音中的情感,而非依赖文本转录的捷径。数据来源于 ICASSP 2026 HumDial 挑战赛的真实人类录制对话,包含中文和英文子集。
核心特点
- 数据真实性:采用真实人类录制的多轮音频,而非合成语音。
- 评估任务设计:包含客观对抗性多项选择题任务,侧重于推理能力评估。
- 专项诊断任务:设有声学-语义冲突任务,以测试跨模态鲁棒性。
- 情感维度分离:分别诊断文本共情能力与声学共情能力。
基准概览
- 总样本量:1,077
- 支持语言:中文与英文
- 核心目标:在记忆、推理、生成和跨模态鲁棒性方面诊断音频语言模型的情感智力
任务构成
| 任务 | 类型 | 中文/英文样本数 | 对话轮数 | 主要评估指标 |
|---|---|---|---|---|
| 任务1:情感轨迹检测 | 多项选择题 | 150 / 150 | 3-5 | 准确率 |
| 任务2:隐式因果推理 | 多项选择题 | 134 / 149 | 3-5 | 准确率 |
| 任务3:共情回应生成 | 开放生成 | 144 / 150 | 3-5 | LLM + 人工评估 |
| 任务4:声学-语义冲突 | 多项选择题 | 100 / 100 | 1 | 准确率 |
| 总计 | 528 / 549 |
任务详情
任务1:情感轨迹检测
追踪对话轮次间的情感变化(例如 E_t1 -> E_t2 -> E_t3),而非对孤立话语进行分类。
任务2:隐式因果推理
从分散的上下文线索中推断潜在的情感触发因素。多项选择题形式有助于减少评估者的主观性。
任务3:共情回应生成
从三个维度评估生成的回应:
- D1:文本共情与洞察力(由LLM评判,1-5分)
- D2:声音共情与一致性(人工评分,1-5分)
- D3:音频质量与自然度(人工评分,1-5分)
任务4:声学-语义冲突
测试当文本情感与声音情感相矛盾(例如类似讽刺的情况)时的模型鲁棒性,以暴露文本主导偏见。
关键发现
- 大多数音频语言模型在多轮情感追踪和隐式因果推理方面仍存在困难。
- 文本共情与声学共情之间存在明显的解耦。
- 所有测试模型在声学-语义冲突下都表现出显著的文本主导偏见。
数据与代码访问
- 数据集即将发布。
评估使用
任务3(共情生成)评分
使用 eval/eval_task3.py 脚本对模型输出的 D1/D2/D3 维度进行评分,并写入每个样本及汇总结果。
输入格式(jsonl)
jsonc { "dialogue_id": "sample_001", "turns": [ { "input_emotion": "sad", "input_text": "Ive been feeling really overwhelmed lately...", "response_text": "It sounds like youre carrying a lot right now.", "response_audio": "outputs/sample_001_turn1.wav" } ] }
运行命令
bash python eval/eval_task3.py --model Qwen3-Omni-30B-A3B-Instruct --input_file results/task3_outputs.jsonl --output_file results/task3_scores.jsonl
该脚本自动识别目标评估轮次(第二个非中性轮次)并根据先前轮次构建上下文。
环境说明:此脚本需要 GPU 运行时和
vLLM。运行前请在eval/eval_task3.py中设置本地评判检查点路径。
联系方式
如有问题或合作意向,请在本代码库中提交议题。

- 1HumDial-EIBench: A Human-Recorded Multi-Turn Emotional Intelligence Benchmark for Audio Language Models西北工业大学·计算机学院音频、语音与语言处理组; 南京大学; AISHELL · 2026年



