iNat2021, NeWT

Name: iNat2021, NeWT
Creator: 康奈尔大学
Published: 2021-06-09 06:07:20
License: 暂无描述

arXiv2021-06-09 更新2024-07-25 收录

下载链接：

https://github.com/visipedia/newt

下载链接

链接失效反馈

官方服务：

资源简介：

iNat2021是一个大规模图像数据集，由社区科学家收集和标注，包含超过2.7M张来自10k不同物种的图像，覆盖整个生命树。NeWT则是一个包含164个高度精选的二元分类任务的数据集，这些任务由真实世界的图像理解用例驱动，如动物健康、生命阶段、行为等。这些数据集旨在推动自监督学习在自然世界图像集合中的应用和进步。

iNat2021 is a large-scale image dataset collected and annotated by community scientists, which comprises over 2.7 million images covering 10,000 distinct species across the entire Tree of Life. NeWT is a dataset containing 164 highly curated binary classification tasks driven by real-world image understanding use cases such as animal health, life stage, and behavior. These datasets aim to promote the application and advancement of self-supervised learning in natural world image collections.

提供机构：

康奈尔大学

创建时间：

2021-03-31

原始信息汇总

NeWT 2021 数据集概述

数据集描述

NeWT 2021 数据集包含 164 个二分类任务的图像集合。所有图像合并到一个目录中，并以 3 通道 jpeg 格式存储。一个单独的 csv 文件包含所有任务的信息。

数据格式

图像元数据和任务数据存储在一个 csv 文件中。每行对应一个图像，每个图像属于一个任务。csv 文件包含以下列：

id: 图像的 ID，用于构建图像文件名（通过附加 .jpg）。
task_cluster: NeWT 任务根据分类问题（如动物外观分类与场景上下文）分为 5 个集群。
task_subcluster: 进一步将 NeWT 任务细分为额外的集群。并非所有 task_clusters 都有额外的子集群。
task: 图像所属任务的 ID。
label: 二进制标签，0 或 1。
text_label: 人类可读的文本标签，对应于二进制标签。注意：这些标签在任务中不唯一。
split: 数据集分割，train 或 test。
height: 图像的高度，以像素为单位。
width: 图像的宽度，以像素为单位。

示例数据

以下是 newt2021_labels.csv 文件中的示例行：

包含 `task_subcluster` 字段的示例行

id	task_cluster	task_subcluster	task	label	text_label	split	height	width
d80eb625-4982-4d34-ad9c-d957f565111e	appearance	age	ml_age_coopers_hawk	0	not_adult	train	425	640
6c3eddb5-345f-444c-9957-1bee9c5aada2	appearance	age	ml_age_coopers_hawk	0	not_adult	train	430	640

对应的图像文件路径：

newt2021_images/d80eb625-4982-4d34-ad9c-d957f565111e.jpg
newt2021_images/6c3eddb5-345f-444c-9957-1bee9c5aada2.jpg

不包含 `task_subcluster` 字段的示例行

id	task_cluster	task_subcluster	task	label	text_label	split	height	width
9a12feb3-bfbb-48cb-8227-21f5a8a4530c	context	nan	ml_bio_raptor_utility_pole	0	neg	train	640	540
2cb20e06-9072-42fe-bd09-8557dfb591dc	context	nan	ml_bio_raptor_utility_pole	0	neg	train	426	640

对应的图像文件路径：

newt2021_images/9a12feb3-bfbb-48cb-8227-21f5a8a4530c.jpg
newt2021_images/2cb20e06-9072-42fe-bd09-8557dfb591dc.jpg

数据下载

数据集文件可通过 AWS Open Data Program 获取：

图像 [4GB]:
- 链接: newt2021_images.tar.gz
- s3 路径: s3://ml-inat-competition-datasets/newt/newt2021_images.tar.gz
- MD5 校验和: b04a56a5b1ffda87f16e6d4f81f9d38e
- 所有图像为 3 通道 jpeg 格式。
标签与元数据 [1MB]:
- 链接: newt2021_labels.csv.tar.gz
- s3 路径: s3://ml-inat-competition-datasets/newt/newt2021_labels.csv.tar.gz
- MD5 校验和: 4cb26d0ee085904887b1ca14dcb893e7

搜集汇总

数据集介绍

构建方式

iNat2021数据集的构建主要依托于iNaturalist应用程序的用户上传的图像。该数据集包含了来自10,000个不同物种的2.7百万张图片，这些物种覆盖了整个生命树。数据集的构建过程包括从iNaturalist数据库中提取“研究级”观测数据，然后根据物种的观测频率、观测者的数量和时间范围进行筛选。为了保证数据集的质量和多样性，数据集的构建还考虑了物种的分布、图片的质量和拍摄者的多样性等因素。此外，为了便于研究和评估，数据集还包含了经纬度和时间等元数据。

使用方法

iNat2021数据集可以用于预训练视觉表示学习模型，也可以用于评估不同预训练方法的性能。在预训练过程中，可以使用ResNet50模型作为特征提取器，并在ImageNet、iNat2018、iNat2021和iNat2021 mini数据集上进行训练。在评估过程中，可以将预训练模型用于 Flowers102、CUB、NABirds、StanfordDogs和StanfordCars等现有细粒度数据集，以及NeWT数据集中的164个自然世界视觉理解任务。评估指标为下游数据集上线性模型测试集的top-1准确率，并与监督的ImageNet特征进行比较。

背景与挑战

背景概述

随着自我监督学习的进展，模型无需显式标签监督即可从图像集合中提取丰富的表示。然而，迄今为止，大多数这些方法都局限于在标准基准数据集（如ImageNet）上进行训练。我们认为，细粒度视觉分类问题（如植物和动物物种分类）为自我监督学习提供了一个信息丰富的测试平台。为了促进这一领域的发展，我们提出了两个新的自然世界视觉分类数据集，iNat2021和NeWT。前者由来自公民科学应用iNaturalist的用户上传的来自10k个不同物种的270万张图像组成。我们与领域专家合作设计了后者NeWT，旨在对一系列具有挑战性的自然世界二元分类任务进行基准测试，这些任务超越了标准物种分类。这两个新数据集使我们能够探索与大规模表示和迁移学习相关的问题，这些学习是在细粒度类别上下文中进行的。我们提供了对在ImageNet和iNat2021上训练的具有和没有监督的特征提取器的全面分析，揭示了在一系列不同的任务中不同学习特征的优缺点。我们发现，由标准监督方法产生的特征仍然优于由SimCLR等自我监督方法产生的特征。然而，不断发布的改进的自我监督学习方法，iNat2021和NeWT数据集是跟踪其进展的宝贵资源。

当前挑战

自我监督学习在自然世界图像集合中的应用面临着一些挑战。首先，细粒度分类对于自我监督模型来说是一个挑战，因为这些模型在处理细粒度数据时往往表现不佳。其次，构建自然世界数据集时，需要考虑数据质量、标签噪声和对象大小分布等问题。此外，如何将自我监督学习模型应用于现实世界中的图像理解任务，如动物健康、生命周期、行为等，也是一个挑战。最后，虽然iNat2021和NeWT数据集为自我监督学习提供了宝贵的资源，但如何有效地利用这些数据集来训练和评估模型仍然是一个开放的问题。

常用场景

经典使用场景

在自然世界图像集合中，iNat2021 和 NeWT 数据集被广泛用于评估无监督学习的表现。这两个数据集提供了丰富的自然世界视觉分类任务，包括细粒度分类、行为识别、健康状况评估等，使得研究人员能够在没有显式标签监督的情况下，探索和评估无监督学习方法的性能和潜力。

解决学术问题

iNat2021 和 NeWT 数据集解决了在自然世界图像集合中进行无监督学习时面临的一些挑战。首先，这两个数据集提供了大量的自然世界图像，使得研究人员能够在没有标签的情况下进行大规模的无监督学习。其次，NeWT 数据集包含了各种细粒度的视觉理解任务，这使得研究人员能够评估无监督学习方法的泛化能力。最后，这两个数据集为研究人员提供了一个基准，以评估和比较不同的无监督学习方法。

实际应用

iNat2021 和 NeWT 数据集在实际应用中具有广泛的应用前景。例如，它们可以用于构建自动化的系统，以识别野生动物的种类、行为和健康状况。此外，这些数据集还可以用于训练计算机视觉模型，以回答有关生态学的重要问题，如物种多样性、物种栖息地等。此外，这些数据集还可以用于教育和研究，以促进对自然世界的理解和保护。

数据集最近研究