ADE20K

Name: ADE20K
Creator: 麻省理工学院计算机科学与人工智能实验室
Published: 2018-10-16 12:41:24
License: 暂无描述

arXiv2018-10-16 更新2024-06-21 收录

下载链接：

http://groups.csail.mit.edu/vision/datasets/ADE20K/

下载链接

链接失效反馈

官方服务：

资源简介：

ADE20K数据集是由麻省理工学院计算机科学与人工智能实验室创建的，旨在推动计算机视觉领域的场景理解研究。该数据集包含25000张复杂日常场景的图像，每张图像平均标注了19.5个实例和10.5个对象类别，涵盖了从场景到对象及其部分的详细标注。数据集的创建过程经过精心设计，由单一专家标注者进行，确保了标注的一致性和准确性。ADE20K数据集的应用领域广泛，主要用于场景解析和实例分割等任务，为解决计算机视觉中的像素级场景理解问题提供了宝贵的资源。

The ADE20K dataset was created by the Computer Science and Artificial Intelligence Laboratory (CSAIL) of the Massachusetts Institute of Technology (MIT), aiming to advance scene understanding research in the field of computer vision. This dataset includes 25,000 images of complex everyday scenes, with an average of 19.5 instances and 10.5 object categories annotated per image, covering detailed annotations ranging from full scenes to objects and their components. The dataset's development process was meticulously planned, with all annotations performed by a single expert annotator to ensure annotation consistency and accuracy. The ADE20K dataset has wide-ranging applications, primarily used for tasks such as scene parsing and instance segmentation, providing a valuable resource for solving pixel-level scene understanding problems in computer vision.

提供机构：

麻省理工学院计算机科学与人工智能实验室

创建时间：

2016-08-19

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，构建一个覆盖广泛场景和对象类别且具有像素级标注的数据集是推动场景理解研究的关键。ADE20K数据集的构建采用了专家标注策略，通过LabelMe标注工具，由单一专业标注者对来自LabelMe、SUN和Places数据集的图像进行详尽标注。这些图像覆盖了SUN数据库中的900个场景类别，标注内容包括对象实例、对象部件以及属性信息。标注过程中采用开放词汇策略，不断扩展视觉概念词典以确保命名一致性，并通过深度排序处理对象重叠问题，最终生成包含对象、部件及层级关系的密集标注数据。

特点

ADE20K数据集以其密集且精细的标注而著称，涵盖了日常复杂场景中的多样视觉概念。该数据集包含约2.5万张图像，平均每张图像标注有19.5个实例和10.5个对象类别，总计标注了超过2,600个对象类别和近500个部件类别。其独特之处在于提供了对象部件的层级标注，部分对象甚至标注了部件的部件，形成了深度达三层的部件关系树。与现有数据集相比，ADE20K在场景多样性和标注粒度上具有显著优势，为像素级场景理解任务提供了丰富而全面的数据支持。

使用方法

基于ADE20K数据集，研究者构建了场景解析和实例分割两大基准任务。场景解析任务（SceneParse150）选取了数据集中像素占比最高的150个类别，要求模型将图像中的每个像素分配到相应的语义类别。实例分割任务（InstSeg100）则聚焦于100个前景对象类别，旨在检测并分割出每个对象实例的精确掩码。数据集提供了训练、验证和测试划分，并开源了多种基线模型（如PSPNet、Mask R-CNN）和训练代码，支持模型性能的评估与比较。此外，ADE20K还被用于组织国际挑战赛，推动像素级场景理解技术的进步，并支持层次语义分割、图像内容自动移除等高级应用研究。

背景与挑战

背景概述

在计算机视觉领域，视觉场景的语义理解被视为一项核心挑战。为应对现有数据集在像素级标注覆盖范围与多样性上的局限，麻省理工学院、香港中文大学、北京大学及多伦多大学的研究团队于2017年共同推出了ADE20K数据集。该数据集包含约2.5万张涵盖复杂日常场景的图像，每张图像均进行了详尽的像素级标注，覆盖物体、部件乃至部件的部件等多层次语义信息。ADE20K以其密集的标注、广泛的场景覆盖和丰富的物体类别，迅速成为场景解析与实例分割任务的重要基准，显著推动了细粒度视觉理解模型的发展。

当前挑战

ADE20K数据集致力于解决场景解析与实例分割中的核心挑战，即如何在高度复杂、多样化的自然场景中实现精确的像素级语义理解。其构建过程面临多重困难：首先，采用开放式词汇标注时，需维持跨图像标注的命名一致性，避免因概念模糊性导致的标签噪声；其次，为确保标注质量与完整性，依赖单一专家标注员进行详尽标注，这虽提升了数据一致性，却带来了高昂的时间与人力成本。此外，数据集中存在大量小尺度物体与高度遮挡的实例，对模型的细节感知与上下文推理能力提出了严峻考验。

常用场景

经典使用场景

在计算机视觉领域，场景理解的核心挑战在于对复杂视觉环境进行精细化解析。ADE20K数据集凭借其密集的像素级标注和丰富的对象与部件层次结构，成为场景解析与实例分割任务的经典基准。该数据集涵盖了超过150个语义类别，平均每张图像包含19.5个实例和10.5个对象类别，为模型提供了多样化的空间上下文信息。研究人员通常利用ADE20K训练深度神经网络，评估其在像素级分类、边界精确度以及小目标识别等方面的性能，推动场景理解技术向更精细、更全面的方向发展。

衍生相关工作

ADE20K催生了众多场景理解领域的创新工作，其中金字塔场景解析网络（PSPNet）通过多尺度上下文聚合显著提升了分割精度，成为该基准上的里程碑模型。统一感知解析网络（UPerNet）进一步利用特征金字塔架构实现了对象与部件的联合分割。在实例分割方面，基于Mask R-CNN的改进方法通过精确ROI池化与上下文融合机制，显著提升了小目标检测性能。这些工作不仅推动了模型架构的演进，还促进了批量归一化优化、多任务学习等训练策略的深入研究，形成了以ADE20K为核心的技术生态体系。

数据集最近研究