STAR-Bench

github2025-10-28 更新2025-10-29 收录

下载链接：

https://github.com/InternLM/StarBench

下载链接

链接失效反馈

官方服务：

资源简介：

STAR-Bench是一个用于测量音频4D智能的基准数据集，定义为在时间和3D空间中推理声音动态。它结合了基础声学感知设置（包括绝对和相对机制下的六个属性）和整体时空推理设置，包括连续和离散过程的片段重新排序，以及涵盖静态定位、多源关系和动态轨迹的空间任务。

STAR-Bench is a benchmark dataset for measuring audio 4D intelligence, which is defined as the capability to reason about sound dynamics across temporal and 3D spatial dimensions. It integrates two categories of setups: basic acoustic perception setups (covering six attributes under both absolute and relative mechanisms) and holistic spatiotemporal reasoning setups, which include segment reordering for both continuous and discrete processes, as well as spatial tasks involving static sound localization, multi-source relational reasoning, and dynamic trajectories.

创建时间：

2025-09-28

原始信息汇总

STAR-Bench 数据集概述

数据集基本信息

数据集名称: STAR-Bench
核心定位: 音频4D智能基准测试，专注于声音在时间和3D空间中的动态推理
版本状态: v1.0（当前最新版本）
数据获取: 可通过HuggingFace下载（https://huggingface.co/datasets/internlm/STAR-Bench）

核心任务设置

基础声学感知任务

评估维度: 六个属性
评估模式: 绝对和相对两种机制

整体时空推理任务

时序推理: 连续和离散过程的片段重排序
空间推理:
- 静态定位
- 多源关系
- 动态轨迹

数据集特点

核心挑战: 专注于语言难以描述的线索
性能差距: 在时序任务上导致31.5%的性能下降，在空间任务上导致35.2%的性能下降
评估价值: 相比仅使用字幕回答的基准测试，能更有效地区分模型能力

数据构建方法

基础感知任务音频: 使用精确参数化或Pyroomacoustics物理模拟器合成
整体推理任务: 包含四个关键阶段的人工标注流程
质量控制: 领域专家验证任务难度，并通过人类测试进行校准

评估结果洞察

能力层次: 闭源模型受限于细粒度感知，开源模型在感知、知识和推理方面全面落后
关键瓶颈:
- 开源模型难以生成密集、细粒度的字幕
- 多音频推理能力显著不足
- 多通道音频平均处理方式限制空间推理能力

技术评估支持

评估框架: 基于VLMEvalKit和Kimi-Audio-Evalkit构建的统一评估流程
支持模型: 包含Qwen2.5-Omni、Qwen2-Audio-Instruct、DeSTA2.5-Audio等15个模型
扩展性: 支持新模型集成，需实现generate_inner()函数

使用许可

代码许可: Apache 2.0
数据许可: CC BY NC 4.0
使用限制: 仅限研究用途

搜集汇总

数据集介绍

构建方式

在音频四维智能研究领域，STAR-Bench通过系统化方法构建数据集。基础感知任务采用参数化合成与Pyroomacoustics物理模拟器生成音频，确保声学参数的精确控制；整体时空推理任务则通过四阶段人工标注流程，包括专家难度验证与人类表现校准，最终筛选出具有严格质量保证的测试样本。

使用方法

研究人员可通过GitHub仓库获取标准化评估工具链，使用HuggingFace平台下载数据集后，依托统一的多模态大模型评估框架进行测试。支持现有19种主流模型的即插即用，同时允许通过实现generate_inner()接口集成新模型，并通过配置文件灵活调整评估参数，实现对时空推理子任务的组合式测评。

背景与挑战

背景概述

在人工智能领域，对多模态感知与推理能力的探索日益深入，STAR-Bench作为2025年发布的创新性数据集，由上海人工智能实验室等机构的研究团队联合构建，旨在系统化评估模型在音频四维智能任务中的表现。该数据集聚焦于声音在时间与三维空间中的动态推理，涵盖了基础声学感知与整体时空推理两大核心模块，通过精确参数化合成与物理模拟技术生成数据，为探索多模态大模型在复杂物理环境中的认知能力提供了标准化评估框架。

当前挑战

STAR-Bench所针对的音频四维智能问题面临多重挑战：在领域层面，模型需突破传统单通道音频处理的局限，实现对多声道空间线索的精准解析；同时，模型必须具备对连续动态过程的时序逻辑推理能力，以及跨多个音频源的复杂关系整合能力。在构建过程中，研究团队需克服数据合成中声学参数控制的精确性难题，并通过专家验证与人工测试校准任务难度，确保数据集的科学性与挑战性平衡。

常用场景

经典使用场景

在音频智能研究领域，STAR-Bench作为首个专注于声音动态时空推理的基准测试工具，其经典应用场景集中于评估多模态大模型对复杂声学场景的深层理解能力。该数据集通过基础声学感知与整体时空推理两大任务模块，系统考察模型对连续离散过程的时间排序、静态声源定位、多源关系解析及动态轨迹追踪等核心能力的表现。研究者可借助其精心设计的六类声学属性参数与物理仿真音频，精准量化模型在跨模态推理任务中的性能边界。

解决学术问题

该数据集有效解决了当前音频理解研究中语言描述与声学线索脱节的核心难题。通过构建包含绝对与相对坐标系的感知任务，以及需要综合时空信息的推理任务，显著提升了模型对非语言化声学特征的提取能力。其实验数据表明，现有模型在时空推理任务上相较人类表现存在31.5%的时间推理差距与35.2%的空间推理差距，为突破音频理解瓶颈提供了明确的量化依据与改进方向。

实际应用

在现实应用层面，STAR-Bench所衡量的音频4D智能能力对智能监控、自动驾驶及增强现实系统具有重要价值。其多通道音频处理机制可为环境声学建模提供技术支持，动态轨迹推理能力可应用于智能交通系统的声源追踪，而多源关系解析则有助于会议系统实现精准的说话人分离与定位。这些应用场景的突破将推动机器对物理世界声学环境的深度认知。

数据集最近研究