STAR-Bench

Name: STAR-Bench
Creator: InternLM
Published: 2025-10-28 15:59:26
License: 暂无描述

Hugging Face2025-10-28 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/internlm/STAR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

STAR-Bench是一个评估音频4D智能的数据集，通过基础声学感知和整体时空推理两个设置来衡量。它包括连续和离散过程的片段重排以及静态定位、多源关系和动态轨迹等空间任务。数据集专注于语言难以描述的线索，并通过专家验证和人类测试来确保任务难度。

提供机构：

InternLM

创建时间：

2025-10-28

原始信息汇总

STAR-Bench数据集概述

基本信息

数据集名称: STAR-Bench
许可证: CC-BY-NC-4.0
模态: 音频、文本
主要用途: 评估音频4D智能（时空推理能力）

数据集配置

temporal_reasoning: 时间推理任务
- 数据文件: meta_info/holistic_reasoning_temporal.json
- 默认配置: 是
spatial_reasoning: 空间推理任务
- 数据文件: meta_info/holistic_reasoning_spatial.json
perception: 基础感知任务
- 数据文件: meta_info/foundation_perception.json

核心特性

音频4D智能: 定义为在时间和3D空间中推理声音动态的能力
基础声学感知: 包含绝对和相对机制下的六个属性
整体时空推理: 包括连续和离散过程的片段重新排序，以及静态定位、多源关系和动态轨迹的空间任务

数据特点

基础感知任务的音频通过精确参数化或基于物理的Pyroomacoustics模拟器合成
整体时空推理任务经过四个关键阶段的精心策划
领域专家严格验证任务难度级别，并通过人工测试进行校准

评估结果

评估19个模型显示与人类存在显著差距
在时间推理任务上准确率下降31.5%，空间推理任务下降35.2%
揭示了模型能力层次结构

使用限制

数据和代码仅限研究使用
数据许可证为CC BY NC 4.0
代码许可证为Apache 2.0

搜集汇总

数据集介绍

构建方式

在音频四维智能研究领域，STAR-Bench数据集通过系统化方法构建而成。基础感知任务的音频数据采用参数化合成与Pyroomacoustics物理模拟器生成，确保对声学参数的精确控制。全时空推理任务则经过四阶段精心设计，包括专家验证任务难度、人工标注以及基于人类表现的最终筛选，形成严谨的数据构建流程。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，其提供三种标准配置：时间推理、空间推理和基础感知。每个配置均包含测试集分割，用户可根据研究需求选择相应配置进行模型评估。数据集采用CC-BY-NC-4.0许可，专为研究目的设计，支持多模态音频与文本数据的联合分析，为探索音频四维智能提供标准化测评框架。

背景与挑战

背景概述

在人工智能领域，对多模态数据的深度理解已成为关键研究方向。STAR-Bench由InternLM团队于2024年推出，旨在系统评估模型在音频四维智能任务中的表现。该数据集聚焦于时空推理能力，通过融合基础听觉感知与整体时空推理两大模块，构建了涵盖时间序列重组、空间定位、多源关系分析等复杂场景的评估体系。其创新性地将声学动态置于三维空间与时间维度进行联合建模，为探索机器对物理世界的认知机制提供了重要基准。

当前挑战

该数据集致力于解决音频时空推理这一前沿问题的核心挑战，包括对连续动态过程的时序逻辑解析、多声源空间关系的精确建模等难点。在构建过程中，团队面临多通道音频信号处理的复杂性挑战，需通过物理仿真与参数化合成确保数据精度；同时，标注过程需克服语言难以描述的时空线索标注难题，通过专家验证与人工测试的多轮迭代来保证任务难度与真实性的平衡。

常用场景

经典使用场景

在音频智能研究领域，STAR-Bench作为首个专注于时空推理的基准测试集，主要应用于评估模型对声音动态在时间和三维空间中变化的理解能力。该数据集通过基础声学感知和整体时空推理两大任务模块，系统性地考察模型对连续与离散过程的时间排序、静态定位、多源关系及动态轨迹等复杂场景的认知水平。其精心设计的测试项目能够有效衡量模型从音频信号中提取时空线索的深度推理能力。

解决学术问题

该数据集有效解决了传统音频基准测试中语言描述偏差对评估准确性的干扰问题。通过引入难以用语言精确描述的时空线索，STAR-Bench揭示了现有模型在细粒度感知与多模态推理方面的显著缺陷。其实验结果表明，模型在时空推理任务上的性能下降幅度远超传统基准，为研究社区提供了更精准的能力评估标尺，推动了音频智能从表层感知向深层推理的范式转变。

实际应用

在现实应用层面，STAR-Bench所衡量的音频4D智能对智能监控、自动驾驶和虚拟现实等领域具有重要价值。基于物理模拟器生成的精确参数化音频数据，能够训练系统在复杂环境中进行声源定位与轨迹追踪。该数据集支撑的技术进步将显著提升智能体在嘈杂场景下的空间感知能力，为构建真正理解物理世界的通用人工智能奠定坚实基础。

数据集最近研究