five

FSS-1000

收藏
arXiv2020-04-30 更新2024-06-21 收录
下载链接:
https://github.com/HKUSTCV/FSS-1000
下载链接
链接失效反馈
官方服务:
资源简介:
FSS-1000是由香港科技大学创建的一个大规模少样本分割数据集,包含1000个对象类别,每个类别有10张图像,总计10000张图像。该数据集特别强调了类别的多样性,涵盖了日常小物件、商品、卡通角色等多种未在先前数据集中出现的对象。数据集的构建过程包括从互联网搜索并下载图像,使用Photoshop工具进行像素级标注。FSS-1000适用于少样本学习,尤其是图像分割任务,旨在解决新类别对象的快速识别和分割问题。

FSS-1000 is a large-scale few-shot segmentation dataset created by The Hong Kong University of Science and Technology. It encompasses 1,000 object categories, with 10 images per category, totaling 10,000 images in all. This dataset places special emphasis on category diversity, covering various objects not present in prior datasets, such as daily small items, commodities and cartoon characters. The dataset is constructed by searching and downloading images from the Internet, followed by pixel-level annotation using Adobe Photoshop. FSS-1000 is applicable to few-shot learning, especially image segmentation tasks, aiming to solve the problem of rapid recognition and segmentation of objects from novel categories.
提供机构:
香港科技大学
创建时间:
2019-07-29
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,数据集的构建往往依赖于大规模人工标注,然而这限制了模型对新类别的泛化能力。FSS-1000数据集的构建旨在突破这一局限,其通过系统化的流程收集了1000个对象类别,每个类别包含10张图像,共计10,000张带有像素级分割标注的图像。数据收集过程涉及从多个互联网搜索引擎(如Google、Bing和Yahoo)检索图像,以确保类别的多样性,并避免单一来源的偏差。图像筛选时排除了极端宽高比或分辨率过低的样本,以保持几何一致性。标注工作采用Photoshop的快速选择工具进行初步自动分割,随后人工精细化修正,最终生成高质量的二进制分割掩码。此外,数据集中包含了大量在传统数据集中未出现的新颖对象,如日常小物件、商品和卡通角色,从而显著扩展了视觉识别的边界。
特点
FSS-1000数据集在少样本分割任务中展现出独特优势,其核心特点在于强调类别多样性而非单纯的数据规模。该数据集包含1000个对象类别,每个类别仅有10个标注样本,这种设计直接针对少样本学习场景,有效减少了模型对大规模标注数据的依赖。数据集的类别层次结构分为12个超类别,形成了灵活的多级分类体系,部分类别可归属于多个超类别,增强了语义组织的丰富性。此外,FSS-1000支持实例级分割,其中758个类别提供了实例标注,超越了PASCAL VOC和COCO等数据集的类别覆盖范围。数据集的扩展性极为突出,仅需为新增类别提供10张标注图像即可轻松集成,这为快速适应新兴视觉任务奠定了坚实基础。
使用方法
FSS-1000数据集专为少样本分割研究设计,其使用方法紧密围绕少样本学习范式展开。在典型实验设置中,数据集按对象类别划分为训练集和测试集,确保测试类别在训练过程中完全不可见。模型输入由支持集和查询集构成:支持集包含少量(如5个)带有分割标注的图像样本,而查询集则包含未标注的图像。训练时,模型学习从支持集提取特征,并据此对查询集图像进行像素级分割预测。评估指标通常采用交并比(IoU),以量化分割精度。该数据集可直接用于训练基线模型,如基于VGG-16、ResNet-101或Inception等骨干网络的关系网络变体,也支持与其他少样本分割方法(如OSLSM和Guided Network)进行性能比较。此外,FSS-1000的预训练权重可作为其他分割任务的初始化,提升模型在有限数据下的泛化能力。
背景与挑战
背景概述
在深度学习推动计算机视觉领域飞速发展的背景下,大规模标注数据集如PASCAL VOC、ImageNet和COCO的构建为图像识别任务奠定了坚实基础。然而,这些数据集在类别覆盖上仍存在显著局限,且标注成本高昂,难以适应现实世界中海量且动态变化的物体类别。为此,少样本学习作为一种仅需少量标注样本即可学习新概念的范式应运而生,尤其在需要像素级精细标注的图像分割任务中展现出巨大潜力。为系统评估少样本分割方法的性能,香港科技大学与腾讯的研究团队于2019年共同创建了FSS-1000数据集,这是首个专为少样本分割设计的大规模基准数据集,涵盖1000个物体类别,每类仅提供10张带有像素级分割标注的图像。该数据集的核心研究问题在于探索模型在极有限监督信息下,如何快速适应并精准分割前所未见的新类别物体,其构建理念强调类别多样性而非单纯的数据规模,对推动少样本分割乃至更广泛的少样本视觉理解研究产生了深远影响。
当前挑战
FSS-1000数据集旨在应对少样本图像分割这一核心领域挑战,即模型如何在仅给定极少数(如5个)标注样本的支持下,准确分割查询图像中属于新类别的物体。这要求模型具备强大的泛化与快速适应能力,而非依赖大规模同类数据训练。在构建过程中,研究团队面临多重挑战:首要挑战在于数据收集与类别体系设计,需在继承现有数据集(如ImageNet)部分类别以保持连续性的同时,大量引入未被充分覆盖的新颖类别(如微小日用品、商标、卡通角色等),以构建均衡且多样化的千类层次结构。其次,像素级标注本身极为耗时费力,团队需在有限资源下为每个类别精确标注10张图像,并确保标注质量一致。此外,为规避网络搜索引擎的固有偏差并保证数据质量,需制定严格的图像筛选标准,如剔除极端宽高比或分辨率过低的图像,并有意纳入包含复杂背景、多物体或小尺度目标的样本以平衡难度。这些构建挑战共同塑造了FSS-1000数据集独特的数据分布与研究价值。
常用场景
经典使用场景
在计算机视觉领域,少样本学习旨在通过极少量标注数据实现模型泛化,FSS-1000作为首个大规模少样本分割数据集,其经典使用场景集中于评估和验证少样本分割模型的性能。研究者通常利用该数据集构建基准模型,如基于VGG-16、ResNet-101等骨干网络,通过支持集与查询集的交互,训练模型在仅提供五个标注样本的情况下完成新类别的像素级分割任务。这种设置有效模拟了现实世界中标注数据稀缺的情境,为算法比较提供了标准化平台。
实际应用
在实际应用中,FSS-1000为自动标注和实例分割提供了高效解决方案。例如,在医学图像分析中,病理学家仅需标注少数细胞区域,模型即可对全切片图像进行自动细胞计数;在卫星图像处理中,通过少量河流标注样本,系统能快速识别整幅地图中的水域。该数据集支持模型直接泛化至未见类别,无需重新训练,显著降低了标注成本和时间,在遥感、医疗诊断及工业检测等领域展现出广阔应用前景。
衍生相关工作
FSS-1000的发布催生了一系列少样本分割领域的经典工作。基于其构建的基准模型启发了如PANet和CANet等先进方法,这些工作通过原型对齐和迭代优化机制进一步提升分割精度。同时,该数据集促进了少样本学习与语义分割的交叉研究,例如将关系网络改造为全卷积U-Net架构,为后续模型设计提供了范本。这些衍生工作不仅推动了算法性能的边界,还拓展了少样本分割在实例级任务和跨领域迁移中的应用深度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作