five

CORe50

收藏
arXiv2025-09-30 收录
下载链接:
https://vlomonaco.github.io/core50/
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从CORE50数据集中构建的持续学习基准,它包含了通过随机抽样类别生成的任务。"Split"持续学习基准采用了任务感知和任务自由设置来评估性能。该基准包含了10个持续学习任务,旨在对持续学习的能力进行评估。

This dataset is a continual learning benchmark constructed from the CORE50 dataset, which contains tasks generated by randomly sampling categories. The "Split" continual learning benchmark adopts both task-aware and task-free settings for performance evaluation. This benchmark includes 10 continual learning tasks, aiming to evaluate the capabilities of continual learning.
提供机构:
CORE50
搜集汇总
数据集介绍
main_image_url
构建方式
CORe50数据集由意大利博洛尼亚大学的研究团队精心构建,专为持续对象识别任务设计。该数据集收录了50个日常物品,分属10个类别,如插头适配器、手机、剪刀等。数据采集过程涵盖11个独立会话(8个室内、3个室外),每个会话中每个物品均使用Kinect 2.0传感器录制15秒视频(每秒20帧),生成300帧RGB-D图像。采集时,操作员手持物品在摄像头前平稳移动并旋转,模拟机器人抓取视角。原始帧经过中心裁剪至350×350像素,继而通过基于运动的自动追踪器进一步裁剪为128×128像素的图像,最终形成包含164,866帧的数据集,其中3个会话用于测试,8个用于训练。
特点
CORe50的核心特点在于其专为持续学习场景而设计,提供了丰富的多视角、多会话数据,以支持三种典型持续学习任务:新实例、新类别以及两者混合。每个物品在11个会话中呈现,涵盖了背景、光照、姿态、遮挡等显著变化,包括室内外环境切换,这为评估模型对灾难性遗忘的抵抗能力提供了严苛测试。数据集的帧序列具有时间连续性,便于利用时序平滑性简化检测与分类。此外,CORe50提供了RGB与深度双模态信息,深度数据可映射至RGB坐标,为多模态学习研究奠定基础。
使用方法
CORe50的使用方法围绕其定义的三种持续学习基准场景展开。在新实例场景中,8个训练会话依次作为批次输入,要求模型在已知类别上不断巩固知识。在新类别场景中,首批包含10个类别,后续8个批次各含5个新类别,测试集固定包含所有类别,以评估模型在不遗忘旧知识的前提下学习新类的能力。在新实例与类别混合场景中,79个批次同时引入新实例与新类别,模拟真实世界动态。研究者可通过官方仓库获取数据集及基准代码,利用CWR等基线方法进行对比,并基于累积策略的准确率作为参考目标,以衡量持续学习技术的有效性。
背景与挑战
背景概述
在持续学习与增量学习领域,深度神经网络在面对高维数据流时,往往受困于灾难性遗忘这一核心问题,即模型在学习新知识的同时会严重损害已习得的旧知识。为支撑这一前沿研究方向,意大利博洛尼亚大学的Vincenzo Lomonaco与Davide Maltoni于2017年提出了CORe50数据集,专为连续物体识别设计。该数据集包含50个日常物体,分属10个类别,并在11个不同场景(包括室内与室外)中采集了超过16万张RGB-D图像,每帧均具有丰富的姿态、光照、背景与遮挡变化。CORe50的提出填补了当时缺乏专用于连续学习评估的基准数据集的空白,为New Instances、New Classes及New Instances and Classes三种典型连续学习场景提供了标准化评测平台,对推动持续学习算法的发展具有重要影响力。
当前挑战
CORe50所面临的核心挑战首先源于连续物体识别领域的固有难题:如何在无存储全部历史数据的前提下,使模型既能高效学习新类别与新实例,又能避免灾难性遗忘,这对现有深度学习架构提出了严峻考验。尤其在New Classes与New Instances and Classes场景中,简单增量训练策略往往导致性能急剧下降。其次,数据集构建本身亦充满挑战:需在11个不同采集会话中确保物体姿态、光照、背景的多样性与真实感,同时通过Kinect 2.0传感器获取高质量的RGB-D数据,并利用自动运动追踪算法从复杂背景中精确裁剪出128×128的物体区域,这一过程不可避免地引入了追踪误差与边缘截断,增加了数据处理的复杂性。
常用场景
经典使用场景
在持续学习与增量学习的研究领域中,CORe50数据集被广泛用于评估模型在动态数据流下的对象识别能力。该数据集包含50个日常物品的11个不同采集会话(包括室内外场景),提供了丰富的视角、光照、遮挡和背景变化。经典使用场景包括三种持续学习范式:新实例(NI)、新类别(NC)以及新实例与新类别混合(NIC),研究者通过将训练数据分批依次输入模型,检验其在避免灾难性遗忘的同时,能否巩固旧知识并吸收新知识。
衍生相关工作
基于CORe50衍生出多项经典工作,包括CopyWeights with Re-init(CWR)基线方法,其通过分离临时权重与巩固权重来缓解类别增量学习中的遗忘问题。后续研究进一步探索了结合深度信息的多模态持续学习、基于记忆重放的生成式方法,以及利用时序平滑性进行半监督调优的策略。此外,该数据集启发了对更高效网络架构(如自适应卷积神经网络)和正则化技术(如弹性权重巩固)在持续学习场景下的系统评估,成为衡量新算法性能的标杆,推动了持续学习从理论走向实际应用。
数据集最近研究
最新研究方向
在持续学习与增量视觉识别的前沿探索中,CORe50数据集以其独特的十一会话、多视角、跨室内外场景的采集设计,成为评估模型在复杂动态环境中应对灾难性遗忘的关键基准。当前研究聚焦于三类典型持续学习范式——新实例(NI)、新类别(NC)及二者混合(NIC),其中CWR(CopyWeights with Re-init)等轻量级基线方法的提出,揭示了在无需存储历史数据的前提下,通过权重隔离与动态更新机制缓解遗忘的可行路径。然而,面对NIC场景中类别与实例双重流式涌现的挑战,现有方法仍与累积训练性能存在显著差距,促使学界探索弹性权重巩固(EWC)、无遗忘学习(LwF)等更精巧的架构与正则化策略。CORe50的发布不仅填补了持续物体识别领域专用数据集的空白,更推动了从静态评估向动态终身学习范式的范式跃迁,其多会话时序连贯性与真实遮挡、光照变化等退化因素,为机器人视觉、自主代理等现实应用提供了不可替代的验证平台。
相关研究论文
  • 1
    CORe50: a New Dataset and Benchmark for Continuous Object Recognition计算机科学与工程系 - DISI 博洛尼亚大学 · 2017年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作