MRES-32M
收藏arXiv2025-04-03 更新2025-04-07 收录
下载链接:
https://github.com/Rubics-Xuan/MRES
下载链接
链接失效反馈官方服务:
资源简介:
MRES-32M是一个大规模的视觉定位数据集,由中国科学院自动化研究所、中国科学院大学等机构创建,包含超过3220万个高质量 masks 和 captions,跨越100万张图像。该数据集特别为部分级别的视觉-语言定位而设计,旨在推动更细粒度的视觉理解。
MRES-32M is a large-scale visual grounding dataset created by institutions including the Institute of Automation, Chinese Academy of Sciences and the University of Chinese Academy of Sciences. It comprises over 32.2 million high-quality masks and captions, spanning 1 million images. This dataset is specifically designed for part-level visual-language grounding tasks, aiming to advance finer-grained visual understanding.
提供机构:
中国科学院自动化研究所, 中国科学院大学, 北京科学院人工智能研究院, 北京科技大学, 北京交通大学
创建时间:
2025-04-03
搜集汇总
数据集介绍

构建方式
MRES-32M数据集的构建采用了多粒度视觉-语言标注策略,通过结合大规模目标检测数据集Object365和细粒度分割标注工具,生成了包含32.2M个掩码和描述的1M张图像。数据生成过程中,利用开放词汇分割模型和基于大语言模型的密集标注器,自动生成高质量的视觉-语言对齐标注,并通过CLIP模型进行语义相似度过滤以确保数据质量。
特点
MRES-32M是当前最大规模的视觉定位数据集,涵盖365个对象类别和2299个部件类别,支持从对象级到部件级的跨粒度视觉-语言理解。其标注突破了传统数据集仅关注对象层级的限制,通过自由形式的自然语言描述和结构化部件标注,实现了对复杂场景中多粒度目标的精准定位与语义关联。
使用方法
该数据集适用于训练和评估多粒度视觉定位模型,如UniRES++等统一框架。使用时需加载图像与对应的多模态标注(掩码和自然语言描述),通过联合优化分割损失和文本生成损失进行模型训练。评估阶段支持mIoU、cIoU等指标,可针对对象级、部件级或混合粒度任务进行性能验证。
背景与挑战
背景概述
MRES-32M数据集由中国科学院自动化研究所和北京人工智能研究院的研究团队于2025年提出,旨在解决视觉语言理解中多粒度目标定位的核心问题。该数据集突破了传统指代表达分割(RES)任务仅关注物体级定位的局限,首次实现了对物体部分级区域的细粒度视觉语言标注。作为当前规模最大的视觉基础数据集,MRES-32M包含100万张图像、3220万个高质量掩码和描述文本,覆盖365个物体类别和2299个部件类别。其创新性地构建了跨粒度视觉语言对齐基准RefCOCOm,通过人工标注7万个部分级指代表达,推动了视觉语言模型从物体级理解向部件级细粒度认知的范式转变。
当前挑战
MRES-32M面临的挑战主要体现在两个方面:在领域问题层面,需解决多粒度视觉语言对齐的复杂性问题,包括部件级区域的模糊边界界定(如'汽车前灯边缘')、跨模态细粒度特征匹配(如文本描述'斑马条纹'与视觉条纹模式的对应)以及开放词汇的语义理解。在构建过程层面,挑战包括:1) 部件级标注的高成本问题,需结合SAM模型与人工校验的混合标注策略;2) 多粒度数据协同标注的技术难题,通过设计层级式标注引擎实现物体-部件关联标注;3) 跨模态质量控制的复杂性,采用CLIP模型对3200万对视觉语言数据进行相似度过滤;4) 规模扩展带来的数据平衡问题,需协调物体级(1530万)与部件级(1690万)样本的分布均衡。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,MRES-32M数据集为多粒度视觉定位任务提供了重要支持。该数据集通过融合对象级和部件级的视觉-语言标注,使得研究者能够开发出能够同时处理不同粒度目标的统一模型。其经典应用场景包括细粒度视觉理解、跨模态对齐以及复杂场景下的目标分割,特别是在需要精确理解自然语言描述所指代的视觉目标时,如自动驾驶中的场景解析或机器人交互系统中的物体识别。
解决学术问题
MRES-32M数据集解决了传统视觉定位任务中数据稀缺和粒度单一的问题。通过提供超过32.2M的掩码和标注,该数据集支持从对象级到部件级的细粒度视觉理解,填补了现有数据集中部件级视觉-语言标注的空白。其意义在于推动了多粒度视觉定位任务的研究,使得模型能够更准确地理解和分割自然语言描述中的复杂目标,从而在开放世界的视觉理解中实现更高精度和鲁棒性。
衍生相关工作
MRES-32M数据集的发布推动了多粒度视觉定位领域的多项经典工作。基于该数据集,研究者提出了UniRES++等统一框架,实现了对象级和部件级视觉定位任务的联合优化。此外,该数据集还启发了后续研究在开放词汇分割、跨模态预训练等方向的探索,例如VLPart和GLaMM等模型均在其基础上进一步提升了细粒度视觉理解的性能。
以上内容由遇见数据集搜集并总结生成



