R2-AVSBench
收藏arXiv2025-08-06 更新2025-08-08 收录
下载链接:
https://github.com/jasongief/TGS-Agent?tab=readme-ov-file
下载链接
链接失效反馈官方服务:
资源简介:
R2-AVSBench是一个新的评估基准,设计用于包含更多具有语言多样性和推理密集性的参考。它旨在更好地评估模型在跨引用场景中的性能。该数据集由 Mohamed Bin Zayed University of Artificial Intelligence, National University of Singapore, University of Science and Technology of China 研究机构的研究人员创建,但论文中并未提供数据集的具体条数和访问地址。
R2-AVSBench is a novel evaluation benchmark designed to incorporate more linguistically diverse and reasoning-intensive reference instances. It aims to better evaluate the performance of models in cross-referencing scenarios. This dataset was developed by researchers from Mohamed Bin Zayed University of Artificial Intelligence, National University of Singapore, and University of Science and Technology of China. However, the specific number of samples and the access URL of the dataset are not provided in the associated paper.
提供机构:
Mohamed Bin Zayed University of Artificial Intelligence, National University of Singapore, University of Science and Technology of China
创建时间:
2025-08-06
搜集汇总
数据集介绍

构建方式
R2-AVSBench数据集的构建基于对现有Ref-AVSBench测试集的深度重构,通过Gemini-1.5-Pro模型生成具有更高语言多样性和推理复杂度的参考表达式。具体流程包括:首先筛选400个原始视频样本,保留其像素级标注掩模但彻底重构语言描述;其次采用多轮提示工程引导大语言模型生成需要跨模态推理的参考文本(如功能描述、文化隐喻等);最终通过人工校验确保新参考与原始目标对象的语义一致性,同时满足平均长度11.73词、规避显式属性描述等严格标准。
使用方法
使用该数据集需遵循多阶段验证协议:首先加载视频-音频-参考文本三元组,通过Ref-Thinker模型生成对象描述;随后用Grounding-DINO检测目标框(阈值τ_bbox=0.1),SAM2生成分割掩模;最终计算Jaccard指数和F-score时,需特别注意处理Null子集(背景占比指标S)。针对推理密集型样本,建议额外评估模型输出的<think>链是否符合人类推理逻辑。数据集配套提供22种参考文本变体模板,支持对抗性测试。
背景与挑战
背景概述
R2-AVSBench数据集由Jinxing Zhou等研究人员于2025年提出,旨在推动指代音频-视觉分割(Ref-AVS)领域的研究。该数据集作为Ref-AVSBench的扩展版本,特别关注多模态推理能力的评估,其核心研究问题是通过自然语言描述在可听视频中精确定位和分割目标对象。数据集由穆罕默德·本·扎耶德人工智能大学、新加坡国立大学和中国科学技术大学等机构联合构建,通过引入语言多样性和推理密集型的指代表达,显著提升了基准测试的挑战性。R2-AVSBench的建立标志着多模态理解研究从简单的特征融合向显式推理范式的重要转变,为音频-视觉-语言跨模态交互研究提供了新的评估标准。
当前挑战
R2-AVSBench面临的核心挑战体现在两个维度:在领域问题层面,传统方法依赖隐式多模态特征融合,难以处理需要复杂跨模态推理的指代表达,如涉及文化常识('演奏东亚传统旋律的物体')或功能描述('产生内燃机声音的物体')的情况;在构建过程中,数据集面临多模态对齐的挑战,包括音频事件与视觉对象的精确时间同步、语言表达的语义歧义消除,以及推理链标注的可靠性验证。特别地,为确保指代表达既保持语言多样性又不失准确性,研究团队采用Gemini-1.5-Pro生成候选描述后需进行人工验证,这种双重校验机制大幅增加了数据标注的复杂度。
常用场景
经典使用场景
R2-AVSBench数据集在指代音频-视觉分割(Ref-AVS)任务中扮演着核心角色,尤其适用于需要模型根据自然语言描述在视频中定位并分割目标对象的场景。该数据集通过多模态融合(文本、音频、视觉)的复杂推理任务,成为评估模型跨模态理解能力的黄金标准。例如,在视频监控领域,模型需根据“左侧发出持续声响的物体”这类描述,结合音频频谱与视觉空间线索,精准分割目标物体如钢琴或吉他。
解决学术问题
该数据集有效解决了多模态语义对齐、开放词汇分割以及弱监督学习三大核心学术难题。通过引入显式对象感知推理链,R2-AVSBench突破了传统方法依赖像素级标注的局限,推动模型从隐式特征学习转向可解释的推理过程。其创新性在于将指代理解分解为Think-Ground-Segment三阶段,显著提升了模型在未见类别上的泛化能力,为多模态基础模型的因果推理研究提供了新范式。
实际应用
在智能视频编辑系统中,R2-AVSBench支持基于语义的自动化对象剪辑,如根据“演奏最激烈乐章的小提琴手”自动提取音乐家片段。医疗领域可应用于手术视频分析,通过“持续发出警报的监护设备”定位特定仪器。此外,该数据集驱动的模型能增强AR/VR场景的交互体验,例如根据用户语音指令“隐藏右侧发出噪音的风扇”实时修改虚拟场景构图。
数据集最近研究
最新研究方向
近年来,多模态人工智能研究逐渐转向全模态理解,其中Referring Audio-Visual Segmentation (Ref-AVS)任务因其在音频、视觉和文本多模态联合感知与推理中的重要性而备受关注。R2-AVSBench作为该领域的最新基准测试集,通过引入更具语言多样性和推理密集型的参考表达,显著提升了模型在复杂场景下的泛化能力评估。前沿研究如TGS-Agent通过解耦任务为Think-Ground-Segment流程,结合多模态大语言模型Ref-Thinker的显式推理能力,实现了无需像素级监督的高效分割。这一方向不仅推动了多模态推理的可解释性发展,也为智能视频分析、虚拟现实等应用提供了更鲁棒的技术支撑。
相关研究论文
- 1Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation Mohamed Bin Zayed University of Artificial Intelligence, National University of Singapore, University of Science and Technology of China · 2025年
以上内容由遇见数据集搜集并总结生成



