HPSU (Human-level Perception in Spoken Speech Understanding) 和 HPSC (Human-level Perception Spoken Speech Caption)

Name: HPSU (Human-level Perception in Spoken Speech Understanding) 和 HPSC (Human-level Perception Spoken Speech Caption)
Creator: 中山大学、腾讯
Published: 2025-11-28 21:45:40
License: 暂无描述

arXiv2025-11-28 更新2025-12-02 收录

下载链接：

https://github.com/Ichen12/HPSU-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

HPSU是由中山大学与腾讯联合构建的大规模语音理解评测基准，旨在全面评估语音大语言模型在真实场景中的人类级感知与认知能力。该数据集包含超过20,000个经过专家验证的英语和汉语口语理解样本，数据源自电影片段和社交媒体视频等开放域场景，涵盖多样化的情境与自然说话风格。其构建采用半自动标注流程，融合音频、文本和视觉信息以实现高效精准的多模态标注。该数据集主要应用于语音理解模型的深度评估与优化，致力于解决模型在潜在意图推断与隐含情感理解等方面与人类能力的差距问题。

HPSU is a large-scale speech understanding evaluation benchmark jointly developed by Sun Yat-sen University and Tencent, aiming to comprehensively assess the human-level perception and cognitive capabilities of speech-oriented large language models in real-world scenarios. This dataset contains over 20,000 expert-validated spoken language understanding samples in both English and Chinese, sourced from open-domain scenarios such as movie clips and social media videos, covering diverse contexts and natural speaking styles. Its construction adopts a semi-automatic annotation pipeline, integrating audio, text and visual information to enable efficient and accurate multi-modal annotation. This dataset is mainly used for in-depth evaluation and optimization of speech understanding models, and is committed to bridging the performance gap between models and human capabilities in aspects like latent intent inference and implicit emotion understanding.

提供机构：

中山大学、腾讯

创建时间：

2025-11-28

原始信息汇总

HPSU-Benchmark 数据集概述

数据集名称

HPSU-Benchmark

核心描述

HPSU是一个面向真实世界口语语音理解的基准测试，旨在评估人类水平的感知能力。

数据集目的

为真实世界口语语音理解任务提供人类水平感知能力的评估基准。

搜集汇总

数据集介绍

构建方式

在构建HPSU与HPSC数据集的过程中，研究团队采用了一种创新的半自动标注流程，以应对真实场景中数据稀缺与人工标注成本高昂的挑战。该流程首先从CelebV-HQ、MAFW、MELD等多个公开音视频数据集中筛选高质量片段，并利用音频评估工具与语音增强模型进行预处理，确保音频质量。随后，通过模拟人类多模态认知，设计了一个多层次信息提取与交叉验证机制：先利用大语言模型分析文本转录以推断说话者状态，再结合音频与视觉模型分别提取各模态表征，并通过单模态交叉验证确保信息的一致性。最终，通过分层融合策略将验证后的信息合成为多维度的开放描述，并经过严格的专家验证协议，仅保留达成一致共识的样本，从而构建出包含超过20,000个专家验证样本的HPSU基准以及包含50,000个语音-描述对的HPSC数据集。

特点

HPSU与HPSC数据集的核心特点在于其全面性与深度，旨在系统评估语音大语言模型达到人类水平的感知与理解能力。该数据集涵盖了中英双语，规模超过20,000个样本，并设计了一个包含16个任务的层次化评估框架，任务范围从基础的说话者属性识别扩展到复杂的潜在意图推理与隐含情感推断等高级认知挑战。其独特之处在于引入了精细的干扰项生成机制与对抗性诱导协议，以深入探究模型在模糊情境下的判别能力及对抗误导信息的鲁棒性。此外，数据集构建所依赖的多模态信息融合管道，有效模拟了人类在沟通中整合听觉、文本与视觉线索的认知过程，为模型提供了逼近真实交互场景的评估环境。

使用方法

HPSU数据集主要用作一个综合性的评估基准，以系统衡量语音大语言模型在深层语音理解任务上的性能。研究者可通过该数据集提供的标准化任务与评估策略，对模型进行多维度测试，涵盖基本感知到复杂推理的各个层面。评估时，需遵循其设定的语义准确性优先原则，利用自动化裁决器进行公平评分，并可通过分析模型在分级答案选项上的分布以及在不同诱导提示下的表现，深入诊断模型的决策过程与鲁棒性缺陷。同时，伴随发布的HPSC数据集可作为高质量的监督微调资源，用于增强模型的感知与理解能力，推动面向人类水平认知的语音模型发展。

背景与挑战

背景概述

随着语音大语言模型的快速发展，自动语音识别与语音情感识别等任务取得了显著进展，然而这些模型是否能够达到人类水平的听觉感知能力，尤其是在理解真实口语中潜在意图与隐含情感方面，仍是一个亟待探索的核心问题。为此，中山大学与腾讯的研究团队于2025年共同推出了HPSU基准数据集，该数据集包含超过两万个经过专家验证的中英文口语理解样本，旨在全面评估语音大语言模型的人类级感知与理解能力。HPSU通过涵盖从基础说话人属性识别到复杂潜在意图推断的十六项任务，构建了一个层次化的评估框架，其半自动标注流程融合了音频、文本与视觉信息，显著提升了标注效率与质量。该数据集的建立为语音理解领域提供了首个专注于深层认知评估的大规模基准，对推动模型向人类水平感知迈进具有重要的指导意义。

当前挑战

HPSU数据集致力于解决语音理解领域中人类级感知评估的挑战，其核心在于衡量模型对真实口语交互中隐含语义与动态情感的深度推理能力。构建过程中的主要挑战体现在两个方面：首先，在领域问题层面，现有模型在基础感知任务上表现接近人类，但在场景推断与情感不匹配推理等高层语义任务中仍存在显著差距，这揭示了模型在训练数据上存在系统性偏差，即过度依赖自动语音识别与粗粒度情感分类数据，缺乏对高阶认知任务的标注资源。其次，在数据构建层面，真实场景中口语数据的稀缺性与人工标注的高成本构成了主要障碍，研究团队通过设计多模态信息融合的半自动标注流程来应对，该流程需确保音频、文本与视觉信息的一致性验证，并经过严格的人工审核协议，最终样本采纳率仅为81.26%，以保障数据的高保真度与可靠性。

常用场景

经典使用场景

在语音大语言模型（Speech LLMs）的研究领域，HPSU与HPSC数据集被广泛用于评估模型在真实世界口语理解任务中的人类级感知能力。该数据集通过涵盖从基础说话人属性识别到潜在意图与隐含情感推理的16项复杂任务，构建了一个层次化的评估框架。研究者通常利用这一基准系统性地测试模型在跨语言、多模态情境下的深度认知表现，从而揭示现有模型在理解真实口语交互时与人类能力之间的显著差距。

衍生相关工作

围绕HPSU与HPSC数据集，学术界衍生出一系列聚焦于深度语音理解的前沿工作。例如，基于HPSC的监督微调实验证实，使用细粒度标注数据能显著提升开源模型在复杂推理任务上的表现。同时，该基准启发了对模型抗诱导鲁棒性的系统研究，揭示了多模态融合架构在抵御误导信息方面的优势。此外，相关研究进一步探索了跨语言语境下模型对文化特定性隐含语义的理解差异，推动了面向全球化应用的语音智能体开发。

数据集最近研究