CORe50

Name: CORe50
Creator: CORE50
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://vlomonaco.github.io/core50/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从CORE50数据集中构建的持续学习基准，它包含了通过随机抽样类别生成的任务。"Split"持续学习基准采用了任务感知和任务自由设置来评估性能。该基准包含了10个持续学习任务，旨在对持续学习的能力进行评估。

This dataset is a continual learning benchmark constructed from the CORE50 dataset, which contains tasks generated by randomly sampling categories. The "Split" continual learning benchmark adopts both task-aware and task-free settings for performance evaluation. This benchmark includes 10 continual learning tasks, aiming to evaluate the capabilities of continual learning.

提供机构：

CORE50

搜集汇总

数据集介绍

构建方式

CORe50数据集由意大利博洛尼亚大学的研究团队精心构建，专为持续对象识别任务设计。该数据集收录了50个日常物品，分属10个类别，如插头适配器、手机、剪刀等。数据采集过程涵盖11个独立会话（8个室内、3个室外），每个会话中每个物品均使用Kinect 2.0传感器录制15秒视频（每秒20帧），生成300帧RGB-D图像。采集时，操作员手持物品在摄像头前平稳移动并旋转，模拟机器人抓取视角。原始帧经过中心裁剪至350×350像素，继而通过基于运动的自动追踪器进一步裁剪为128×128像素的图像，最终形成包含164,866帧的数据集，其中3个会话用于测试，8个用于训练。

特点

CORe50的核心特点在于其专为持续学习场景而设计，提供了丰富的多视角、多会话数据，以支持三种典型持续学习任务：新实例、新类别以及两者混合。每个物品在11个会话中呈现，涵盖了背景、光照、姿态、遮挡等显著变化，包括室内外环境切换，这为评估模型对灾难性遗忘的抵抗能力提供了严苛测试。数据集的帧序列具有时间连续性，便于利用时序平滑性简化检测与分类。此外，CORe50提供了RGB与深度双模态信息，深度数据可映射至RGB坐标，为多模态学习研究奠定基础。

使用方法

CORe50的使用方法围绕其定义的三种持续学习基准场景展开。在新实例场景中，8个训练会话依次作为批次输入，要求模型在已知类别上不断巩固知识。在新类别场景中，首批包含10个类别，后续8个批次各含5个新类别，测试集固定包含所有类别，以评估模型在不遗忘旧知识的前提下学习新类的能力。在新实例与类别混合场景中，79个批次同时引入新实例与新类别，模拟真实世界动态。研究者可通过官方仓库获取数据集及基准代码，利用CWR等基线方法进行对比，并基于累积策略的准确率作为参考目标，以衡量持续学习技术的有效性。

背景与挑战

背景概述

在持续学习与增量学习领域，深度神经网络在面对高维数据流时，往往受困于灾难性遗忘这一核心问题，即模型在学习新知识的同时会严重损害已习得的旧知识。为支撑这一前沿研究方向，意大利博洛尼亚大学的Vincenzo Lomonaco与Davide Maltoni于2017年提出了CORe50数据集，专为连续物体识别设计。该数据集包含50个日常物体，分属10个类别，并在11个不同场景（包括室内与室外）中采集了超过16万张RGB-D图像，每帧均具有丰富的姿态、光照、背景与遮挡变化。CORe50的提出填补了当时缺乏专用于连续学习评估的基准数据集的空白，为New Instances、New Classes及New Instances and Classes三种典型连续学习场景提供了标准化评测平台，对推动持续学习算法的发展具有重要影响力。

当前挑战

CORe50所面临的核心挑战首先源于连续物体识别领域的固有难题：如何在无存储全部历史数据的前提下，使模型既能高效学习新类别与新实例，又能避免灾难性遗忘，这对现有深度学习架构提出了严峻考验。尤其在New Classes与New Instances and Classes场景中，简单增量训练策略往往导致性能急剧下降。其次，数据集构建本身亦充满挑战：需在11个不同采集会话中确保物体姿态、光照、背景的多样性与真实感，同时通过Kinect 2.0传感器获取高质量的RGB-D数据，并利用自动运动追踪算法从复杂背景中精确裁剪出128×128的物体区域，这一过程不可避免地引入了追踪误差与边缘截断，增加了数据处理的复杂性。

常用场景

经典使用场景

在持续学习与增量学习的研究领域中，CORe50数据集被广泛用于评估模型在动态数据流下的对象识别能力。该数据集包含50个日常物品的11个不同采集会话（包括室内外场景），提供了丰富的视角、光照、遮挡和背景变化。经典使用场景包括三种持续学习范式：新实例（NI）、新类别（NC）以及新实例与新类别混合（NIC），研究者通过将训练数据分批依次输入模型，检验其在避免灾难性遗忘的同时，能否巩固旧知识并吸收新知识。

衍生相关工作

基于CORe50衍生出多项经典工作，包括CopyWeights with Re-init（CWR）基线方法，其通过分离临时权重与巩固权重来缓解类别增量学习中的遗忘问题。后续研究进一步探索了结合深度信息的多模态持续学习、基于记忆重放的生成式方法，以及利用时序平滑性进行半监督调优的策略。此外，该数据集启发了对更高效网络架构（如自适应卷积神经网络）和正则化技术（如弹性权重巩固）在持续学习场景下的系统评估，成为衡量新算法性能的标杆，推动了持续学习从理论走向实际应用。

数据集最近研究