OmniBenchmark-1K

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/LMMM2025/OmniBenchmark-1K

下载链接

链接失效反馈

官方服务：

资源简介：

OmniBenchmark-1K 是一个专为类增量持续学习设计的大规模、高挑战性评估基准数据集。其核心特点是构建了极长的任务序列，包含100到300多个非重叠的学习任务，远超通常仅包含5-20个任务的标准持续学习基准。该数据集旨在全面、深入地评估持续学习算法在超长任务流上的性能，重点测试模型在持续学习过程中的稳定性（避免遗忘旧知识）与可塑性（有效学习新知识）的平衡能力。它通过模拟更接近现实世界的渐进式、大规模学习场景，为持续学习研究提供了严格的评估协议。该数据集基于图像分类任务构建，相关研究工作在计算机视觉和机器学习领域发表。

创建时间：

2026-05-10

原始信息汇总

OmniBenchmark-1K 数据集概述

基本信息

许可证: Apache-2.0
任务类型: 图像分类（Image Classification）
所属领域: 类增量持续学习（Class-Incremental Continual Learning）

数据集简介

OmniBenchmark-1K 是一个面向类增量持续学习的挑战性基准数据集，专门设计用于评估模型在极长任务序列（从 100 到超过 300 个非重叠任务）上的性能表现。

核心特点

提供大规模评估协议，用于全面评估持续学习者的能力
支持在极长序列上评估模型性能，与仅关注 5-20 个任务的标准基准形成对比
重点测试模型的稳定性（Stability）和可塑性（Plasticity）随时间变化的表现

引用信息

如使用本数据集进行研究，请引用以下论文：

@inproceedings{lou2026care, title={Scaling Continual Learning to 300+ Tasks with Bi-Level Routing Mixture-of-Experts}, author={Lou, Meng and Fu, Yunxiang and Yu, Yizhou}, booktitle={International Conference on Machine Learning}, year={2026}, }

@inproceedings{zhang2022omnibench, title={Benchmarking Omni-Vision Representation through the Lens of Visual Realms}, author={Zhang, Yuanhan and Yin, Zhenfei and Shao, Jing and Liu, Ziwei}, booktitle={European Conference on Computer Vision}, year={2022}, }

搜集汇总

数据集介绍

构建方式

OmniBenchmark-1K是为类增量持续学习设计的高难度基准数据集，旨在评估模型在极长任务序列上的表现。该数据集涵盖100至超过300个互不重叠的任务，突破了传统基准仅包含5至20个任务的局限。其构建基于多源视觉领域的丰富图像数据，通过精心划分任务边界，确保各任务间类别无重叠，从而模拟真实场景中模型需不断学习新知识而避免遗忘的挑战。数据集的提出源于论文《Scaling Continual Learning to 300+ Tasks with Bi-Level Routing Mixture-of-Experts》，并提供了开源代码库以支持复现与扩展研究。

特点

该数据集的核心特点在于其极长的任务序列规模与严苛的评估协议，能够全面测试持续学习算法的稳定性与可塑性。与常见基准相比，OmniBenchmark-1K将任务数量提升至百级以上，迫使模型在长期演进中保持对旧知识的记忆同时高效吸收新信息。此外，数据集的非重叠任务设计强化了类别增量场景的真实性，避免了任务间信息冗余，从而更精准地反映模型的遗忘特性与适应能力。整体上，它为持续学习领域提供了一个高难度、标准化的评测平台。

使用方法

使用OmniBenchmark-1K时，研究者需按照数据集预设的任务顺序逐步训练模型，每个任务仅包含独立类别集合。在训练过程中，模型依次接触并学习各个任务的图像样本，且无法回顾先前任务的数据。评估阶段则需在所有已学习任务上进行测试，以衡量模型对旧知识的保留程度与新任务的掌握情况。推荐的评估指标包括平均准确率、遗忘率以及任务间准确率迁移等。数据加载可通过HuggingFace的datasets库或官方GitHub仓库中的代码示例实现，便于快速集成至持续学习框架中。

背景与挑战

背景概述

在持续学习（Continual Learning）领域，模型在面对非平稳数据分布时需兼顾稳定性与可塑性，然而现有基准多局限于5至20个任务的短序列评估，难以反映现实场景中模型在数百个增量任务上的长期适应能力。OmniBenchmark-1K由Meng Lou、Yunxiang Fu和Yizhou Yu于2026年提出，旨在解决这一评估瓶颈，其核心研究问题聚焦于如何设计大规模、长任务序列的评估协议以衡量持续学习器的综合性能。该数据集基于Bi-Level Routing Mixture-of-Experts框架构建，收录于国际机器学习大会（ICML 2026），为持续学习研究提供了前所未有的基准尺度，推动了领域对模型在极长任务序列下可塑性衰减与灾难性遗忘问题的深入探讨。

当前挑战

OmniBenchmark-1K所应对的领域挑战在于，传统持续学习基准任务数过少（5-20个），无法揭示模型在超过100个甚至300个非重叠任务上的长期稳定性与泛化能力，进而限制了实际应用中如机器人终身学习、动态环境感知等场景的算法评估。在构建过程中，研究者面临了任务序列超长带来的标签空间膨胀、类别间语义重叠控制以及计算资源优化等难题，需确保各任务间无共享类别以模拟严格的任务增量学习，同时设计高效的指标以捕捉模型的遗忘与迁移动态，最终形成了一个兼具挑战性与可复现性的评测平台。

常用场景

经典使用场景

在持续学习（Continual Learning）研究领域，OmniBenchmark-1K 被经典地用作评估类增量学习（Class-Incremental Learning）模型的基准。相较于传统基准仅涵盖5至20个任务，该数据集突破性地支持从100至300余个非重叠任务的超长序列评估，为验证模型在动态数据流中的稳定性和可塑性提供了严苛的测试平台。研究者可借此分析模型在长期任务堆积下的灾难性遗忘程度，以及知识迁移与整合能力，从而推动算法在复杂时序环境下的鲁棒性提升。

实际应用

在实际应用中，OmniBenchmark-1K 可模拟需要长期适应新类别的视觉系统，例如智能安防中的新增目标种类识别、自动驾驶中动态扩展的道路标志分类，以及个性化推荐系统中用户兴趣类别的持续更新。该数据集允许开发者测试模型在面对数百次增量更新后，是否仍能保持高精度与低遗忘率。其引入的双层路由混合专家（Bi-Level Routing Mixture-of-Experts）策略也为实际系统提供了可伸缩的部署方案，有助于在计算资源受限的场景下实现模型的高效在线学习。

衍生相关工作

OmniBenchmark-1K 的提出直接衍生出一系列围绕超长任务序列持续学习的经典工作。其中最具代表性的是其伴随论文提出的 CaRE（Bi-Level Routing Mixture-of-Experts）方法，该架构通过双层路由机制在专家网络间动态分配知识，显著提升了模型在300余任务上的抗遗忘能力。此外，该基准也启发了后续研究如任务感知记忆重放、动态网络扩展策略，以及基于正则化的长期稳定性优化。这些工作共同推动了持续学习从实验室短序列设定迈向真实大规模应用的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集