PixelRefer-2.2M

Name: PixelRefer-2.2M
Creator: 浙江大学, 阿里巴巴集团 DAMO 学院, 湖畔实验室, 香港理工大学
Published: 2025-10-28 01:59:32
License: 暂无描述

arXiv2025-10-28 更新2025-10-29 收录

下载链接：

https://circleradon.github.io/PixelRefer

下载链接

链接失效反馈

官方服务：

资源简介：

PixelRefer-2.2M 是一个高质量的对象中心指令数据集，旨在支持语言与全局视觉上下文和局部对象区域之间的细粒度对齐。该数据集分为两个类别：基础对象感知和视觉指令调整，以支持细粒度的时间空间对象理解，包括对象级和场景级理解，涵盖了空间（图像）和时域（视频）领域。

PixelRefer-2.2M is a high-quality object-centric instruction dataset designed to enable fine-grained alignment between language and both global visual contexts and local object regions. This dataset is divided into two categories: Basic Object Perception and Visual Instruction Tuning, which supports fine-grained spatio-temporal object understanding including object-level and scene-level comprehension, and covers both spatial (image) and temporal (video) domains.

提供机构：

浙江大学, 阿里巴巴集团 DAMO 学院, 湖畔实验室, 香港理工大学

创建时间：

2025-10-28

原始信息汇总

PixelRefer: 统一时空对象指代框架

基本信息

论文标题: PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
作者: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi
机构: 浙江大学, DAMO Academy (阿里巴巴集团), Hupan Lab, 香港理工大学
年份: 2025
论文链接: https://arxiv.org/abs/2501.00000

核心创新

统一细粒度多模态大语言模型: 支持静态图像和动态视频中的精确区域特定理解
双范式设计:
- PixelRefer (视觉-对象框架)
- PixelRefer-Lite (仅对象框架)
尺度自适应对象标记器 (SAOT): 提供精确、语义丰富的区域表示
对象中心注入 (OCI) 模块: 在早期层有效融合全局和对象级线索

数据集

PixelRefer-2.2M: 大规模高质量以对象为中心的指令数据集
- 基础对象感知训练: 140万样本
- 视觉指令调优: 80万样本

性能优势

最先进性能: 在多样化图像和视频基准测试中达到最优结果
训练效率: 使用更少的训练样本实现优异性能
推理优化: PixelRefer-Lite显著减少运行时间和内存使用

评估基准

图像级区域理解:

类别级: LVIS, PACO
详细描述: DLC-Bench, Ref-L4 [CLAIR]
短语级: Ref-L4, VG
推理级: Ferret-Reasoning

视频基准: VideoRefer-Bench

资源效率

在DLC-Bench (图像) 和 HC-STVG (视频) 基准上报告
评估指标: 每项推理时间 (秒/项) 和峰值GPU内存 (GB)

搜集汇总

数据集介绍

构建方式

在推进细粒度视觉理解的研究进程中，PixelRefer-2.2M数据集应运而生，旨在为区域级多模态大语言模型提供高质量的指令调优支持。该数据集通过系统整合开源图像与视频数据，划分为基础目标感知与视觉指令调优两大模块，涵盖区域识别、详细描述生成及问答推理等多种任务类型。数据构建过程强调语义多样性与时空连贯性，采用多智能体标注流程确保样本的精确性与丰富性，从而为模型在复杂场景下的对象级理解奠定坚实基础。

特点

聚焦于细粒度视觉语义理解，PixelRefer-2.2M数据集展现出多维度特征优势。其覆盖范围广泛，囊括从静态图像到动态视频的多种模态数据，支持对象级、部件级乃至时序关系的高阶推理。数据样本兼具语义密度与结构层次，不仅包含基础的对象属性描述，还融入了多轮对话、关系推理与未来事件预测等复杂指令。这一设计使数据集在保持大规模的同时，显著提升了模型在开放世界环境中的认知泛化能力与语义对齐精度。

使用方法

在视觉语言模型训练实践中，PixelRefer-2.2M数据集通过两阶段渐进策略发挥核心作用。第一阶段侧重于基础目标感知，利用区域识别与描述数据强化模型对局部语义的提取能力；第二阶段转向视觉指令调优，引入问答对与推理任务以提升模型的交互响应与逻辑推断水平。使用者可依据具体需求灵活配置数据子集，或结合全局-局部特征融合机制优化模型架构，实现从像素级理解到场景级推理的无缝过渡，最终赋能模型在医疗诊断、自动驾驶等高风险领域的可靠应用。

背景与挑战

背景概述

PixelRefer-2.2M数据集于2025年由浙江大学、阿里巴巴达摩院、湖鲜实验室及香港理工大学联合发布，旨在推动多模态大语言模型在细粒度对象级视觉理解领域的发展。该数据集作为PixelRefer框架的核心组成部分，聚焦于解决现有模型在空间和时间维度上对用户指定区域进行精细化语义推理的局限性。通过整合图像与视频中的对象级指令数据，PixelRefer-2.2M显著提升了模型在复杂场景下的对象描述、关系分析和动态事件预测能力，为医疗诊断、人机交互等实际应用提供了坚实的数据基础。

当前挑战

在领域问题层面，PixelRefer-2.2M致力于克服多模态大语言模型在细粒度对象指代任务中的语义模糊性，尤其是在视频动态场景下对象身份与时空一致性的保持。构建过程中，数据集面临高质量标注的挑战，需在自由形式区域掩码上实现精确的语义对齐，同时平衡多尺度对象（如微小部件与大型实体）的特征表达冗余问题。此外，跨模态指令数据的多样性整合要求严格避免描述偏差，确保模型在开放世界环境中具备鲁棒的推理泛化能力。

常用场景

经典使用场景

在计算机视觉与多模态大语言模型融合的前沿领域中，PixelRefer-2.2M数据集被广泛应用于细粒度对象级视觉理解任务。该数据集通过整合图像与视频中的区域级标注数据，支持模型对用户指定区域进行精准语义解析，涵盖对象识别、部分级分类、时空关系推理等核心场景。其高质量指令数据使模型能够处理任意形状和尺度的对象区域，尤其在复杂动态视频环境中展现出卓越的时空一致性建模能力，为多模态推理提供了坚实基础。

解决学术问题

该数据集有效解决了传统多模态模型在细粒度对象感知方面的局限性，突破了全局场景理解与局部区域解析之间的语义鸿沟。通过构建层次化标注体系，它显著提升了模型在跨尺度对象识别、多对象交互关系建模、时空连贯性分析等关键学术问题上的性能。其引入的尺度自适应对象表征机制，为小目标语义保留和冗余特征压缩提供了创新解决方案，推动了视觉-语言对齐技术向像素级精度演进，对开放世界细粒度认知研究具有里程碑意义。

衍生相关工作

基于该数据集衍生的经典工作包括PixelRefer统一框架及其轻量化变体PixelRefer-Lite，其中尺度自适应对象标记器（SAOT）和对象中心融合模块（OCI）已成为区域级MLLM的重要设计范式。这些创新被后续研究如VideoRefer、DAM等模型所借鉴，推动了Osprey、Ferret等区域理解基准的演进。其在HC-STVG、VideoRefer-Bench等评估体系中的优异表现，更催生了新一代面向时空对象理解的模型架构，持续引领着细粒度多模态推理的技术浪潮。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集