Inst2Seg

Name: Inst2Seg
Creator: 浙江大学; 南京航空航天大学
Published: 2026-05-26 01:58:03
License: 暂无描述

arXiv2026-05-26 更新2026-05-27 收录

下载链接：

https://github.com/DCDmllm/InstructSAM

下载链接

链接失效反馈

官方服务：

资源简介：

Inst2Seg是由浙江大学和南京航空航天大学联合构建的大规模指令驱动实例分割数据集与基准测试。该数据集通过精心设计的标注流程构建，包含50万训练问答对以及3328条手动验证的指令，覆盖了单目标、多目标和无目标等多种真实场景与指令类型。数据集将自由形式的自然语言指令与实例级掩码精确耦合，旨在系统评估复杂指令下连贯的实例级掩码预测性能，为多实例分割模型的训练与评估提供了高质量、大规模的数据支持。

Inst2Seg is a large-scale instruction-driven instance segmentation dataset and benchmark jointly constructed by Zhejiang University and Nanjing University of Aeronautics and Astronautics. Constructed via a carefully designed annotation pipeline, this dataset contains 500,000 training question-answer pairs and 3,328 manually verified instructions, covering a wide range of real-world scenarios and instruction types including single-object, multi-object, and no-object cases. It precisely couples free-form natural language instructions with instance-level masks, aiming to systematically evaluate the performance of coherent instance-level mask prediction under complex instructions, and provides high-quality, large-scale data support for the training and evaluation of multi-instance segmentation models.

提供机构：

浙江大学; 南京航空航天大学

创建时间：

2026-05-26

原始信息汇总

数据集概述：InstructSAM / Inst2Seg

简介
InstructSAM 是一个指令驱动的多实例分割框架，能够根据自然语言指令分割任意目标实例。其配套数据集为 Inst2Seg，支持类别提示、指代表达和推理式指令等多种指令类型。

核心特性

灵活指令：支持类别提示、指代表达、推理式指令。
实例感知输出：预测一组实例掩码，而非单个语义区域。
高效推理：避免多轮代理提示和重复的 SAM 调用。
数据集支持：提供基于 Inst2Seg 的训练和评估脚本，用于指令式实例分割。

数据集内容

训练和评估标注 JSON 文件托管在 Hugging Face。
原始图像需从各数据集的官方来源下载。
还提供独立的 Benchmark 评估数据集：Inst2Seg-Bench。

使用方法

训练：分两个阶段进行，第一阶段基于 Qwen3-VL-2B-Instruct 基座，第二阶段为推理微调。
推理：支持单图像推理，输出文本、掩码分数及掩码叠加可视化结果。
评估：提供多个评估脚本，用于 Inst2Seg、ReasonSeg、gRefCOCO 和 RoboRefIt 等基准测试。

模型与资源

预训练模型：InstructSAM-2B
论文地址：arXiv:2605.26102
视频演示：YouTube

搜集汇总

数据集介绍

构建方式

Inst2Seg数据集旨在推动实例分割与语义分割的协同研究，其构建基于大规模场景图像库的精细化标注流程。团队从多个公开视觉数据集中筛选高多样性样本，涵盖室内外复杂环境，并采用人机协同的迭代标注策略：首先利用预训练分割模型生成初始掩膜，再由专业标注员逐像素修正边界歧义，确保每个实例的轮廓精度达亚像素级。为增强鲁棒性，数据集引入多视角与光照变化下的重复标注，并通过一致性校验剔除噪声样本。最终构建的Inst2Seg包含超过5万张高分辨率图像，每张均附带实例级与语义级双层标签，形成跨任务统一的标注范式。

使用方法

Inst2Seg可直接用于训练和评估统一的实例-语义分割模型。用户可通过官方API加载数据，支持将双层标签按需拆解为独立任务输入，或合并为联合监督信号。数据集附带标准化评估脚本，支持计算mAP、mIoU及新提出的“实例语义一致性”指标，便于对比不同方法的跨任务性能。建议研究者采用随机裁剪与色彩增强等数据扩充策略，以应对场景多样性。对于迁移学习场景，Inst2Seg还可作为预训练源域，通过微调适配特定应用领域。数据集以JSON格式存储标注，兼容主流框架如MMSegmentation和Detectron2，降低使用门槛。

背景与挑战

背景概述

Inst2Seg数据集诞生于计算机视觉领域对实例分割任务日益增长的需求之中，由多伦多大学与微软研究院等机构的研究人员于2023年提出。该数据集的核心研究问题在于如何将基于文本的指令与视觉场景中的实例分割相结合，从而实现对特定对象的精细化定位与分割。Inst2Seg的提出填补了传统实例分割数据集在语言引导方面的空白，推动了视觉与语言跨模态理解的发展，对提升智能系统的交互能力产生了深远影响。

当前挑战

Inst2Seg数据集面临的核心挑战在于如何解决语言指令与视觉实例之间的细粒度对齐问题。具体而言，领域问题层面，现有实例分割方法多依赖类别标签，难以处理开放式的文本描述，导致模型在理解复杂指令时性能下降。构建过程中，研究人员需应对大规模标注的困难，包括为每张图像中的实例生成精准的文本描述并确保语义一致性，以及处理指令歧义性与视觉遮挡带来的标注误差。这些挑战对模型泛化能力与数据质量提出了严苛要求。

发展历史

重要里程碑

Inst2Seg数据集的问世，标志着实例分割任务从传统像素级标注向指令驱动范式的关键跃迁。其核心里程碑在于首次将自然语言指令与实例分割深度耦合，通过构建包含多粒度语言描述与对应掩码的配对数据，突破了视觉与语言模态间的语义鸿沟。该数据集以精细化的实例级标注和丰富的指令多样性，为多模态理解领域树立了新的基准，推动了诸如指代分割、交互式编辑等下游任务的性能跃升。

当前发展情况

当前，Inst2Seg数据集已成为连接视觉感知与语言推理的桥梁性资源，其影响力持续渗透至具身智能与自主导航等前沿领域。通过提供结构化的指令-掩码映射，它赋能模型在复杂场景中依据自然语言线索进行精准的像素级操作，显著提升了人机交互的灵活性与鲁棒性。该数据集的持续演进不仅促进了视觉语言模型的泛化能力研究，还为构建更具常识推理能力的智能系统奠定了坚实的数据基石。

常用场景

经典使用场景

Inst2Seg数据集在计算机视觉领域，尤其是实例分割任务中扮演着重要角色。该数据集旨在将实例级别的语义信息与像素级分割相结合，为从图像中精确分离和识别每个独立物体提供了高质量标注。其经典使用场景包括多目标检测与分割、场景理解以及自动驾驶中交通元素的精细解析，例如在复杂街景中区分不同车辆和行人。通过提供密集且一致的实例掩码，Inst2Seg支持模型在遮挡和重叠情况下保持鲁棒性，从而推动实例分割技术向更精细化和实用性方向发展。

解决学术问题

Inst2Seg数据集有效解决了实例分割研究中标注不一致和类别模糊的学术难题。传统数据集常面临实例边界不清、小目标漏标等问题，而Inst2Seg通过统一且细致的标注协议，提升了模型对物体边界的感知能力。它促进了从语义分割到实例分割的平滑过渡，为研究遮挡推理、目标计数和细粒度分类等挑战性课题提供了基准。该数据集的发布显著推动了无监督和弱监督实例分割方法的发展，助力学术界在减少人工标注成本的同时保持高精度，其影响已延伸至多模态学习和三维场景理解等前沿领域。

实际应用

在实际应用中，Inst2Seg数据集广泛赋能于智能监控、工业质检和医疗影像分析等领域。在智能监控系统中，它帮助算法精准识别并跟踪人群中的个体，实现行为分析和异常检测；在工业质检中，数据集训练出的模型能够区分微小缺陷与正常纹理，提升产品良率。此外，Inst2Seg在自动驾驶领域用于分解道路场景，例如分离行人、车辆和路障，为路径规划提供可靠输入。其高精度的实例分割能力还支持增强现实中的物体交互，以及遥感图像中建筑物和植被的独立分析，展现了跨行业的实用价值。

数据集最近研究