EchoMind

github2025-11-01 更新2025-11-08 收录

下载链接：

https://github.com/hlt-cuhksz/EchoMind

下载链接

链接失效反馈

官方服务：

资源简介：

EchoMind是一个相互关联的多层次基准测试，用于评估语音语言模型中的共情对话，通过在一个上下文链接的框架中统一语言和副语言理解来模拟共情对话的认知过程。它包含顺序的、上下文链接的任务：口语内容理解、声音线索感知、整合推理和响应生成，所有任务共享相同的语义中性脚本，同时通过受控的声音风格变化测试传递效果。

EchoMind is an interconnected multi-level benchmark for evaluating empathetic dialogue in speech-language models. It simulates the cognitive processes of empathetic dialogue by unifying linguistic and paralinguistic understanding within a contextually linked framework. The benchmark comprises sequential, contextually linked tasks: spoken content understanding, acoustic cue perception, integrative reasoning, and response generation. All tasks share identical semantically neutral scripts, and assess transfer effects through controlled variations in vocal styles.

创建时间：

2025-10-09

原始信息汇总

EchoMind 数据集概述

数据集简介

EchoMind是首个相互关联的多阶段基准测试，用于评估具有同理心的语音语言模型。该基准通过顺序、上下文关联的任务模拟同理心对话的认知过程，包括口语内容理解、声音线索感知、综合推理和响应生成。

核心特征

多级认知过程模拟：
- 第1级：通过内容（ASR）和语音（MCQs）进行理解
- 第2级：通过整合内容和语音进行推理（MCQs）
- 第3级：生成上下文和情感对齐的响应（开放域响应）
控制实验设计：
- 所有任务共享相同的语义中性脚本
- 无显式情感或上下文线索
- 通过控制语音风格变化测试传递效果

评估框架

同理心导向框架：
- 3个粗粒度维度
- 12个细粒度维度
- 39个声音属性
评估方法：
- 客观指标
- 主观指标

数据集结构

EchoMind/ ├── dataset/ │ ├── audio_response/ │ ├── data_human/ │ ├── data_synthesis/ │ └── instruction/ ├── requirements/ ├── script/ │ ├── human_script/ │ └── synthesis_scrip/ └── src/ ├── analysis-result/ ├── eval-result/ └── eval-slm/

评估任务

语音内容理解（ASR）
声音线索感知（多项选择题）
综合推理（多项选择题）
响应生成（开放域响应）

获取方式

bash git clone https://github.com/hlt-cuhksz/EchoMind.git git clone https://huggingface.co/datasets/hlt-cuhksz/EchoMind

相关资源

论文：https://arxiv.org/abs/2510.22758
代码：https://github.com/hlt-cuhksz/echomind
数据集：https://huggingface.co/datasets/hlt-cuhksz/EchoMind
网站：https://hlt-cuhksz.github.io/EchoMind/
排行榜：https://hlt-cuhksz.github.io/EchoMind/#leaderboard

搜集汇总

数据集介绍

构建方式

在语音语言模型快速发展的背景下，EchoMind数据集通过模拟人类共情对话的认知过程构建而成。该数据集采用语义中性的脚本，确保文本内容不包含显性情感或语境线索，同时引入受控的语音风格变化来独立测试语音传递效果。构建过程分为三个相互关联的阶段：语音内容理解、语音线索感知、综合推理与响应生成，每个阶段共享相同的脚本基础，从而实现对模型多维度能力的系统评估。

特点

EchoMind作为首个多层级共情对话评估基准，其核心特点在于将语言理解、声学感知与情感推理有机结合。数据集涵盖3个粗粒度和12个细粒度共情维度，包含39种语音属性，通过客观指标与主观评价相结合的方式进行全面衡量。独特之处在于使用相同脚本在不同语音表达下测试模型的稳定性与敏感性，揭示了现有模型在高表现力语音线索处理上的普遍不足。

使用方法

研究人员可通过克隆GitHub仓库并下载HuggingFace数据集开始使用EchoMind。该基准提供完整的评估框架，支持对12种主流语音语言模型进行三级任务测试：语音识别、多项选择题和开放域响应生成。以Qwen2.5-Omni-7B为例，用户可通过配置专用环境并运行合成脚本来完成全流程评估，系统会自动生成在共情维度上的综合性能分析报告。

背景与挑战

背景概述

在语音语言模型快速发展的背景下，香港中文大学（深圳）人机语言技术研究团队于2025年推出了EchoMind基准数据集。该数据集聚焦于共情对话系统的核心研究问题，通过模拟人类多层级认知过程，系统评估模型在语音内容理解、非词汇声学线索感知、多模态推理与情感回应生成等方面的综合能力。作为首个关联式多阶段评测框架，EchoMind填补了现有基准在语音与情感交互整合评估方面的空白，为构建具身智能对话系统提供了重要理论基础与实验范式。

当前挑战

在领域问题层面，现有语音语言模型面临高表现力声学特征识别困难、情感回应质量受限等核心挑战。构建过程中需攻克语义中性脚本设计、39种声学属性标注一致性、多模态数据对齐等技术难题。数据集通过控制声学风格变量与文本内容解耦的实验设计，揭示了模型在指令遵循鲁棒性、自然语音变异适应性方面的固有缺陷，凸显了声学线索与语言内容深度融合对于实现真正共情对话的关键作用。

常用场景

经典使用场景

在语音语言模型研究领域，EchoMind数据集主要应用于评估模型在共情对话中的综合表现。该数据集通过模拟人类认知过程的多阶段任务设计，包括语音内容理解、声学线索感知、整合推理和回应生成，为研究者提供了系统评估模型共情能力的标准化平台。其独特的语义中性脚本配合可控的语音风格变化，能够有效分离语言内容与语音表达对模型表现的影响，成为该领域最具代表性的评估基准。

解决学术问题

EchoMind数据集有效解决了语音语言模型研究中长期存在的共情能力评估难题。传统方法往往孤立评估语言、声学或推理能力，而该数据集通过多层级关联任务设计，首次实现了对模型整合多种信息源能力的系统性测评。特别针对高表达性语音线索识别、指令遵循鲁棒性以及自然语音变异性适应等关键学术问题，提供了可靠的量化评估框架，推动了共情对话系统的理论发展。

衍生相关工作

围绕EchoMind数据集已衍生出多项重要研究工作，包括基于多模态融合的共情响应生成模型、语音情感识别与语言理解联合优化方法、以及面向自然语音变异性的模型鲁棒性增强技术。这些工作不仅拓展了语音语言模型的研究边界，还催生了新的模型架构设计和训练策略，为构建真正具备人类水平共情能力的对话系统奠定了坚实基础，推动了整个领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集