SonicBench

github2026-01-19 更新2026-02-11 收录

下载链接：

https://github.com/EIT-NLP/SonicBench

下载链接

链接失效反馈

官方服务：

资源简介：

SonicBench是一个基于心理物理学的基准测试，旨在探测物理音频感知而非语义理解。它包括12个核心属性×5个感知维度×2种范式（识别与比较）= 2,400个问题-音频对。现有的大型音频语言模型在语义和副语言表现上虽强，但在物理感知上表现接近随机，且未能显示出在比较任务上的人类优势。

SonicBench is a psychophysics-based benchmark designed to probe physical audio perception rather than semantic understanding. It includes 12 core attributes × 5 perceptual dimensions × 2 paradigms (recognition and comparison), totaling 2,400 question-audio pairs. While existing large audio language models perform strongly in semantic and paralinguistic tasks, their performance on physical perception-related tasks is close to random, and they fail to exhibit the human advantage in comparison tasks.

创建时间：

2026-01-16

原始信息汇总

SonicBench 数据集概述

数据集简介

SonicBench 是一个基于心理物理学的基准测试，旨在探究大型音频语言模型（LALMs）的物理音频感知能力，而非语义理解能力。该数据集包含 2,400 个问题-音频对，用于系统评估模型对音频信号内在物理属性的感知。

核心构成

物理属性：涵盖 12 个核心物理属性，分为 5 个感知维度。
任务范式：包含两种互补的心理物理范式。
数据规模：12 个属性 × 2 种任务类型 × 100 个项目 = 2,400 个问题-音频对。

感知维度与属性

频谱与振幅维度
- 属性：pitch（音高）、brightness（亮度）、loudness（响度）、velocity（速度）。
时间维度
- 属性：duration（时长）、tempo（速度）。
空间与环境维度
- 属性：direction（方向）、distance（距离）、reverberation（混响）。
音色维度
- 属性：timbre（音色）、texture（纹理）。
场景级别维度
- 属性：counting（计数）。

任务范式

识别任务（绝对判断）
- 输入：单个 4 秒音频片段。
- 任务：在两个物理类别之间做出绝对决策。
- 输出："A" 或 "B"。
比较任务（相对判断）
- 输入：两个 4 秒音频片段，中间以 0.5 秒静音连接。
- 任务：判断哪个片段在给定属性上具有更大的值。
- 输出："A"（若第一段更大）或 "B"。

关键发现

现有模型在物理感知任务上表现接近随机猜测。
模型在比较任务上未表现出类似人类的优势。
推理时链式思考带来的改进有限。
编码器感知到的信息多于完整模型所能利用的信息。

主要用途

评估 LALMs、LARMs 和 OLMs 的物理基础能力。
进行属性级和维度级诊断。
研究识别与比较任务的行为差异。
进行编码器探测和架构分析。

数据访问

所有数据集文件托管于 Hugging Face：https://huggingface.co/datasets/YirongSun/SonicBench
本仓库提供 SonicBench 工具箱和 36 个系统的完整推理输出。

引用

如使用 SonicBench，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在音频人工智能领域，物理感知能力是模型实现稳健听觉理解的基础。SonicBench数据集通过严谨的心理物理学范式构建，旨在系统评估大型音频语言模型的物理音频感知能力。其构建过程围绕12个核心物理属性展开，涵盖频谱与振幅、时域、空间与环境、音色以及场景级五个感知维度。针对每个属性，数据集设计了识别与比较两种互补的任务范式，分别要求模型进行绝对类别判断和相对大小比较。通过生成受控的音频刺激，最终形成了包含2,400个问题-音频对的标准评测集，为深入探究模型的感知瓶颈提供了结构化的数据基础。

特点

SonicBench数据集的核心特征在于其心理物理学基础与多维度的诊断能力。数据集并非关注语义或副语言学内容，而是聚焦于音频信号的内在物理属性感知，如音高、响度、空间方位等。这种设计使得它能够揭示模型在物理 grounding 方面的真实能力，弥补了现有评测集中于高层语义任务的不足。数据集提供了识别与比较两种任务范式，便于分析模型在绝对判断与相对推理上的行为差异。此外，其结构化的属性与维度划分支持细粒度的性能诊断，能够精确指出模型在特定感知维度上的优势与缺陷。配套的工具箱与模型推理输出进一步增强了其可复现性与可扩展性。

使用方法

SonicBench主要作为评估与分析基准，用于系统检验大型音频语言模型、音频推理模型及全模态模型的物理音频感知能力。研究人员可通过Hugging Face平台获取完整的数据集文件，其中`json/`目录下的数据应视为留出测试集。对于编码器探测等分析任务，建议使用`probe_json/`中提供的训练与评估分割。典型应用场景包括：对模型进行物理 grounding 能力的整体评测；利用12个属性和5个维度进行细粒度诊断，定位模型的具体薄弱环节；对比模型在识别与比较任务上的表现，以探究其关系推理能力；通过在线性探针上训练，分析感知信息在编码器到语言模型管道中的流失情况。配套的工具箱支持用户生成新的受控音频刺激，以扩展或复现心理物理学实验设计。

背景与挑战

背景概述

在人工智能与听觉计算领域，大型音频语言模型（LALMs）的兴起标志着多模态智能的重要进展。然而，现有评估体系多聚焦于语义与副语言学能力，对音频信号内在物理属性的系统化感知评估长期缺位。SonicBench数据集应运而生，由EIT-NLP实验室于2026年创建，核心研究团队包括孙逸荣、邱鑫、沈晓宇等学者。该数据集旨在探究LALMs在物理音频感知方面的瓶颈，即模型对音高、响度、空间方位等基础声学属性的理解能力。其设计基于心理物理学原理，通过构建涵盖12个核心属性、5个感知维度的2400个问题-音频对，为评估模型的物理感知基础提供了标准化基准，对推动稳健听觉智能的发展具有深远影响。

当前挑战

SonicBench所针对的核心领域问题是大型音频语言模型的物理音频感知能力评估，其挑战在于现有模型虽在语义任务上表现优异，却在物理属性判断中接近随机猜测，揭示了感知基础与高层能力之间的脱节。具体构建挑战包括：需依据心理物理学范式设计绝对识别与相对比较两类任务，确保刺激生成的精确可控；同时，需系统定义涵盖频谱、时空、音色等多维度的12种属性，并生成大量高质量音频样本，以全面覆盖复杂听觉场景。这些挑战要求数据集在保持科学严谨性的同时，具备可扩展性与诊断深度，从而有效暴露模型在表征对齐与解码环节的瓶颈。

常用场景

经典使用场景

在音频人工智能领域，SonicBench数据集作为一项心理物理学基准测试工具，其经典应用场景在于系统评估大型音频语言模型对物理音频属性的感知能力。该数据集通过精心设计的12个核心属性、5个感知维度和两种心理物理范式，构建了2400个问题-音频对，为研究者提供了一个可控且标准化的测试平台。它主要用于剖析模型在频谱、幅度、时空、音色及场景级等基础物理维度上的表现，从而揭示模型在物理感知层面的内在瓶颈，而非仅仅关注语义或副语言信息。

解决学术问题

SonicBench数据集致力于解决当前音频人工智能研究中的一个关键学术问题：大型音频语言模型在物理感知层面的能力缺失。现有评估多集中于语义理解与副语言分析，而忽视了模型对音频信号内在物理属性的基础感知。该数据集通过系统化的心理物理测试，揭示了模型在音高、响度、空间定位等基础属性上表现接近随机猜测的现状，即便其高层任务性能优异。这一发现挑战了模型仅依赖数据集捷径而非真正物理接地的假设，为理解模型感知瓶颈提供了实证基础，推动了音频智能向更稳健、更类人感知方向的发展。

衍生相关工作

围绕SonicBench数据集，已衍生出一系列聚焦于音频物理感知瓶颈分析与改进的经典研究工作。这些工作主要沿着几个方向展开：一是基于其诊断结果，深入探究编码器-投影器-语言模型管道中的信息损失机制，发展更有效的对齐策略；二是利用其提供的探测数据集，训练线性分类器以验证编码器表征中物理线索的存在性，并比较不同音频编码架构的感知能力；三是借鉴其心理物理范式，设计新的评估基准或训练目标，以增强模型在相对比较任务上的推理性能。这些研究共同推动了音频语言模型从语义理解向物理接地的多维智能演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集