five

InsCore (Instance Core Segmentation Dataset)

收藏
arXiv2025-05-19 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.13099v1
下载链接
链接失效反馈
官方服务:
资源简介:
InsCore是一个用于工业实例分割的合成预训练数据集。该数据集基于公式驱动的监督学习(FDSL)生成,能够生成完全标注的实例分割图像,反映工业数据的特征,包括复杂的遮挡、密集的分层掩膜和多样的非刚性形状。与传统的真实图像数据集相比,InsCore不依赖于真实图像或人工标注,且在五个工业数据集上的实验表明,使用InsCore预训练的模型在实例分割性能上超过了在COCO和ImageNet-21k上训练的模型,以及微调的SAM模型,平均提高了6.2个点的性能。

InsCore is a synthetic pre-training dataset for industrial instance segmentation. It is generated based on Formula-Driven Supervised Learning (FDSL), which can produce fully annotated instance segmentation images that reflect the core characteristics of industrial data, including complex occlusions, dense layered masks and diverse non-rigid shapes. Compared with traditional real-world image datasets, InsCore does not rely on real images or manual annotations. Experiments conducted on five industrial datasets demonstrate that models pre-trained with InsCore outperform those trained on COCO and ImageNet-21k, as well as fine-tuned SAM models, with an average performance improvement of 6.2 percentage points.
提供机构:
日本先进工业科学技术研究所 (AIST), 英国牛津大学视觉几何组
创建时间:
2025-05-19
搜集汇总
数据集介绍
main_image_url
构建方式
InsCore数据集采用公式驱动监督学习(FDSL)方法构建,通过数学公式生成具有复杂遮挡结构和层次化掩码的合成图像。该方法在二维画布上随机放置由参数化多边形构成的中空形状实例,通过递归生成嵌套轮廓来模拟工业场景中的典型遮挡关系。每个实例的可见区域通过从后向前渲染的布尔运算确定,最终生成包含精确像素级标注的实例分割掩码。该过程完全自动化,无需人工标注或真实图像参与,生成的图像分辨率为512×512像素,每个图像包含1至32个随机分布的实例。
特点
InsCore数据集的核心特征在于其专为工业场景设计的合成数据特性:1)通过中空掩码结构模拟工业图像中常见的复杂遮挡现象;2)采用层次化多边形生成算法创建密集且结构多样的分割掩码;3)包含256个语义类别以确保足够的形状多样性。与常规合成数据集相比,InsCore生成的几何形状具有非刚性变形特性,更接近工业场景中的真实物体形态。实验表明,仅需10万张合成图像即可使模型在五个工业领域数据集上平均提升6.2个mIoU值,数据效率达到SA-1B数据集的110倍。
使用方法
该数据集主要用于工业实例分割模型的预训练阶段。使用时应先采用标准视觉Transformer架构(如Swin-B)在InsCore上进行100个epoch的预训练,学习率为2e-4,批大小为16。下游任务微调时建议采用渐进式学习率衰减策略,在训练进度的90%和95%时分别降低学习率至十分之一。对于SAM等基础模型的适配,可结合lightning-SAM框架进行80个epoch的提示微调,初始学习率设为8e-4。值得注意的是,由于数据集已包含工业场景的结构先验,在医疗内镜、卫星遥感等特定领域微调时,模型收敛速度较传统预训练方法提升约40%。
背景与挑战
背景概述
InsCore(Instance Core Segmentation Dataset)是由日本TICO-AIST合作研究实验室、国立产业技术综合研究所(AIST)以及牛津大学视觉几何组的研究团队于2025年提出的工业实例分割预训练数据集。该数据集旨在解决工业应用中因法律限制和领域差异导致的图像分割性能下降问题。InsCore采用公式驱动监督学习(FDSL)方法,生成具有复杂遮挡、密集层次化掩码和多样非刚性形状特征的合成图像,无需真实图像或人工标注。实验表明,在五个工业数据集上,基于InsCore预训练的模型性能平均提升6.2个点,显著优于COCO、ImageNet-21k及微调的SAM模型,同时数据量仅为SAM的1/100。
当前挑战
InsCore面临的挑战主要包括两方面:1) 领域问题挑战:工业图像通常具有复杂遮挡结构和非刚性物体形态,现有通用模型(如SAM)在跨领域迁移时性能显著下降;2) 构建过程挑战:需通过数学公式精确模拟工业场景的关键视觉特征(如器械-组织遮挡、卫星图像密集建筑群等),同时避免传统合成数据因过度简化导致的表征偏差。此外,需平衡合成数据的规模与质量,实验表明100k样本量即可达到最优效果,过量数据反而可能降低泛化能力。
常用场景
经典使用场景
InsCore数据集在工业实例分割领域展现出卓越的应用价值,尤其在处理复杂遮挡结构和密集层次掩码的场景中表现突出。该数据集通过公式驱动生成的空心掩码,模拟了医疗内窥镜、卫星遥感图像等工业场景中常见的多物体交叠现象,为模型提供了高度逼真的预训练环境。在腹腔镜手术器械分割任务中,InsCore预训练模型能准确区分相互遮挡的器械与组织,其性能超越基于真实图像预训练的模型约6.2个mIoU点。
解决学术问题
该数据集有效解决了工业视觉领域两大核心难题:其一,突破真实图像数据集在商业使用中的法律伦理限制,通过完全合成的数据规避版权与隐私问题;其二,弥合自然图像与工业图像间的领域鸿沟,其生成的复杂遮挡结构和非刚性形状更贴近工业数据特性。实验证明,仅用10万合成图像训练的模型,在五个工业基准数据集上平均性能超越需要1100万真实图像的SAM模型,验证了合成数据在特定领域的替代可行性。
衍生相关工作
该工作推动了公式驱动监督学习(FDSL)在分割任务中的发展,其衍生技术SegRCDB将语义分割性能提升至与ImageNet预训练相当水平。InsCore的层次掩码生成方法被后续研究扩展至三维工业检测领域,启发SynthSeg等脑MRI分割框架采用类似合成策略。在实时检测系统RTMDet上的实验表明,基于InsCore预训练的模型在COCO基准上达到43.4mAP,为轻量化部署提供了新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作