HPSU (Human-level Perception in Spoken Speech Understanding) and HPSC (Human-level Perception Spoken Speech Caption)

github2025-12-02 更新2025-12-03 收录

下载链接：

https://github.com/Ichen12/HPSU-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

HPSU（口语语音理解中的人类水平感知）是一个大规模基准，旨在评估语音大语言模型在真实场景中的感知和认知能力。它包括超过20,000个英语和中文样本，涵盖16个不同任务，从基本属性识别到潜台词和情感动态的复杂推理。此外，HPSC（人类水平感知口语语音字幕）是一个高质量数据集，包含50,000个语音-描述对，用于训练更强的语音大语言模型。

HPSU (Human-level Perception in Spoken Language Understanding) is a large-scale benchmark designed to evaluate the perceptual and cognitive capabilities of speech large language models in real-world scenarios. It comprises over 20,000 English and Chinese samples, covering 16 distinct tasks ranging from basic attribute recognition to complex reasoning about subtext and emotional dynamics. Furthermore, HPSC (Human-level Perception Spoken Speech Caption) is a high-quality dataset containing 50,000 speech-description pairs for training more robust speech large language models.

创建时间：

2025-11-14

原始信息汇总

HPSU 数据集概述

数据集基本信息

数据集名称：HPSU (Human-level Perception in Spoken Speech Understanding)
核心目标：评估语音大语言模型在真实场景下的感知与认知能力。
数据规模：包含超过 20,000 个样本，涵盖英语和中文。
任务复杂度：覆盖 16 种不同的任务，从基本属性识别到潜台词与情感动态的复杂推理。
对抗鲁棒性评估：明确评估模型在误导性提示（标准、正向和负向诱导）下的决策稳定性。

数据集构成与发布

基准数据集：HPSU。
辅助训练数据集：HPSC (Human-level Perception Spoken Speech Caption)，包含 50,000 个语音-描述对，用于训练更强的语音大语言模型。
元数据文件：HPSU_data.json。
评估脚本：evaluate.py。
预测文件示例：HPSU_data_prediction_demo.json。

评估方法

评估流程：用户需准备一个与 HPSU_data.json 结构一致但包含 prediction 字段的结果文件，使用提供的 evaluate.py 脚本进行评估。
特殊要求：对于描述和潜台词任务，输出中需要额外的 selected_field（有效值仅限于 right 或 distractor）。
基线对比：评估中采用了三个基线：基于大规模母语者标注得出的人类表现上限、随机猜测的几率水平基线，以及将 Whisper 转录文本输入 GPT-4o 的 Whisper+GPT 级联模型，以分离出声学建模带来的性能增益。

数据构建方法

构建过程采用三阶段半自动流水线：

数据收集：从多样化视频语料库（如 CelebV-HQ, MELD）中收集，并使用语音增强工具进行预处理。
信息提取：利用大语言模型和音频/视觉模型提取多视角描述。
融合与验证：将信息合成为三元组，并经过严格的人工验证。

引用与联系

引用论文：如需在研究中引用 HPSU 或 HPSC，请引用提供的 arXiv 论文。
联系方式：
- Chen Li: lich528@mail2.sysu.edu.cn
- Peiji Yang: peijiyang@tencent.com
- Jianxing Yu: yujx26@mail.sysu.edu.cn

免责声明

该数据集包含真实世界的语音数据。尽管已进行质量过滤，用户仍应注意网络来源数据中可能存在的潜在偏见。

搜集汇总

数据集介绍

构建方式

在语音理解研究领域，构建能够反映人类真实感知能力的数据集至关重要。HPSU数据集的构建采用了一种三阶段半自动化的流程，首先从CelebV-HQ、MELD等多样化的视频语料库中收集原始语音数据，并利用语音增强工具进行预处理。随后，通过大型语言模型以及音频、视觉模型从多视角提取丰富的描述信息。最终，这些信息被融合成三元组形式，并经过严格的人工验证以确保数据的准确性与可靠性，从而为评估语音大模型的感知与认知能力奠定了坚实基础。

特点

该数据集在语音理解基准测试中展现出显著的特点，其规模庞大且覆盖广泛，包含了超过两万个涵盖英语和中文的双语样本。数据集设计了十六种不同的复杂任务，从基础的属性识别延伸到对潜台词与情感动态的深层推理，全面挑战模型的认知边界。尤为突出的是，HPSU专门设置了对抗性评估环节，通过标准、正向与负向诱导等误导性提示来检验模型决策的稳定性与鲁棒性，这为深入理解模型在真实场景下的表现提供了独特视角。

使用方法

为了有效利用该数据集进行评估，研究者需首先获取包含完整元数据的HPSU_data.json文件。使用前，需要准备一个与之结构匹配的预测结果文件，其中为每个条目添加‘prediction’字段；对于描述和潜台词任务，输出中还需包含一个限定为‘right’或‘distractor’的‘selected_field’。随后，通过运行提供的evaluate.py脚本，并指定评估模型所需的API密钥、基础URL、评估器模型标识以及预测文件路径，即可自动化地完成对模型性能的量化评估，流程清晰且易于复现。

背景与挑战

背景概述

在语音大语言模型（Speech LLMs）快速发展的背景下，如何评估模型在真实世界复杂场景中的人类级感知与认知能力，成为语音理解领域的前沿核心问题。HPSU（Human-level Perception in Spoken Speech Understanding）基准数据集应运而生，由中山大学与腾讯等机构的研究团队于2025年创建。该数据集旨在系统性地衡量语音大语言模型在多样化、高复杂性任务上的表现，其涵盖超过两万个英汉双语样本，涉及从基础属性识别到隐含情感与潜台词推理等十六项任务，为推进语音理解模型向人类水平迈进提供了关键的评估标准。

当前挑战

HPSU数据集致力于解决真实世界口语理解中的人类级感知问题，其核心挑战在于如何设计能够全面评估模型高级认知与上下文推理能力的复杂任务，例如对语音中的反讽、情感动态和潜在意图的精准捕捉。在构建过程中，研究团队面临多重挑战：首先，需要从多样化的视频语料库中收集高质量、具有丰富语义和副语言信息的语音片段；其次，设计并实施一个半自动化的多阶段流程，以融合语言模型与视听模型提取的多视角描述，并确保生成的三元组数据经过严格的人工验证，以保障数据的可靠性与标注一致性。

常用场景

经典使用场景

在语音大语言模型（Speech LLMs）的研究领域，HPSU数据集主要被用于评估模型在真实世界复杂场景下的感知与认知能力。其核心应用场景在于系统性地测试模型对口语语音中隐含信息的理解深度，例如通过涵盖基础属性识别到复杂情感动态推断的16项任务，研究者能够全面衡量模型是否具备接近人类水平的语境解析与推理能力。该数据集特别设计的对抗性诱导提示（标准、正向、负向）进一步考察了模型决策的稳健性，为语音理解模型的性能评估提供了多维度的基准框架。

解决学术问题

HPSU数据集有效解决了语音理解研究中长期存在的评估维度单一、脱离真实语境的问题。传统语音识别任务主要关注字面转录的准确性，而HPSU将研究视野拓展至对说话者意图、情感潜台词及社会语境等深层语义的理解。它通过构建大规模、多任务、跨语言的评估体系，为量化模型在复杂感知任务上的表现提供了标准化的度量工具，从而推动了语音人工智能从“听清”向“听懂”的范式转变，对构建具备人类级认知能力的语音交互系统具有关键的学术意义。

衍生相关工作

HPSU与HPSC数据集的发布，催生了一系列围绕提升语音大语言模型感知能力的研究工作。其构建中采用的三阶段半自动流水线方法（数据收集、多视角信息提取、融合与验证）为后续高质量语音语义数据集的构建提供了可借鉴的范式。该基准所引入的对抗性诱导评估方法，也启发了后续研究对模型鲁棒性与可解释性的深入探索。同时，其公开的评估框架与基线结果（如人类表现上限、随机猜测基线及Whisper+GPT级联模型）为领域内研究者提供了清晰的性能对标，推动了新模型与新方法的迭代与比较。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集