LAION-Beyond

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/MHuangX/LAION-Beyond

下载链接

链接失效反馈

官方服务：

资源简介：

LAION-Beyond是首个专门设计用于评估视觉语言模型（如CLIP、OpenCLIP、EVA-CLIP）在预训练外概念（OOP）泛化能力的多领域基准数据集。该数据集区分两种视觉概念：预训练中出现过的概念（IP）和完全未出现过的概念（OOP）。数据集包含157,382张图像，覆盖9个多样化领域（动物、建筑、服饰、民间艺术、食物、昆虫与蜘蛛、地标、植物与真菌、宝可梦），共998个概念。每个领域包含IP和OOP子集，支持从LAION-400M到5B不同规模的研究。数据集结构清晰，包含图像文件、标签映射文件和划分信息文件。主要发现包括：1) OpenCLIP图像编码器能为OOP概念形成良好分离的簇；2) OOP概念的零样本迁移显著失败；3) 提出的FSNL和ZSNL算法能有效恢复OOP泛化能力而不影响IP性能。数据集采用CC BY-SA 4.0许可发布。

创建时间：

2026-04-07

原始信息汇总

LAION-Beyond 数据集概述

数据集简介

LAION-Beyond 是首个专门用于评估视觉语言模型（如 CLIP、OpenCLIP、EVA-CLIP）预训练外泛化能力的多领域基准数据集。该数据集区分两种视觉概念：预训练内概念（IP）和预训练外概念（OOP）。

关键特性

核心目的：评估视觉语言模型对预训练数据中未出现概念的泛化能力。
关键发现：研究发现，尽管 OpenCLIP 的图像编码器能为 OOP 概念形成良好分离的聚类，但由于图像-文本对齐失败，零样本迁移性能显著下降。
提出算法：数据集相关研究提出了 FSNL（少样本名称学习）和 ZSNL（零样本名称学习）算法，通过微调 OOP 概念的名称嵌入来高效恢复泛化能力。

数据集统计

划分	图像数量	概念数量
OOP	106,052	674
IP	51,330	324
总计	157,382	998

涵盖领域：9 个多样化领域，包括动物、建筑、服饰、民间艺术、食物、昆虫与蜘蛛、地标、植物与真菌、宝可梦。
数据规模：覆盖 LAION-400M、LAION-2B 和 LAION-5B 规模，以支持神经缩放定律研究。

数据集结构

数据集按领域文件夹组织，每个文件夹命名格式为 {领域}{类别数}_{IP/OOP}（例如 Animals42_IP）。

主要文件：

images/：按类别子文件夹组织的原始图像文件（JPG 格式）。
label2name.json：从整数标签到类别名称字符串的映射。
name2label.json：从类别名称字符串到整数标签的映射。
merged_mapping.json：跨划分的合并标签映射。
split_Xin_*.json：每个图像的训练/验证/测试集划分信息。

使用方法

选项一：直接文件访问 python import json import os from PIL import Image

加载标签映射和划分信息，读取图像。

选项二：使用 HuggingFace datasets 库 python from datasets import load_dataset dataset = load_dataset("MHuangX/LAION-Beyond")

基准测试结果（400M 划分）

在 OOP 少样本学习（4-shot）任务中，提出的 FSNL 方法在 9 个领域的平均 H-mean 准确率达到 62.55%，优于 OpenCLIP、CoOp 和 CLIP-Adapter 等方法。

许可信息

本数据集采用知识共享署名-相同方式共享 4.0 国际许可协议发布。

引用

如果研究中使用 LAION-Beyond，请引用： bibtex @inproceedings{chen2025laionbeyond, title={Reproducible Vision-Language Models Meet Concepts Out of Pre-Training}, author={Chen, Ziliang and Huang, Xin and Fan, Xiaoxuan and Wang, Keze and Zhou, Yuyu and Guan, Quanlong and Lin, Liang}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2025} }

作者与机构

作者：Xin Huang†, Ziliang Chen†, Xiaoxuan Fan, Keze Wang, Yuyu Zhou, Quanlong Guan, Liang Lin* 机构：鹏城实验室、中山大学、洛桑联邦理工学院、暨南大学（† 同等贡献，* 通讯作者）

搜集汇总

数据集介绍

构建方式

在视觉语言模型研究领域，LAION-Beyond数据集通过系统化筛选与标注，构建了首个专门评估模型预训练外泛化能力的多领域基准。该数据集从九个广泛领域（如动物、建筑、服饰等）中精心挑选视觉概念，并依据这些概念是否出现在LAION-400M/2B/5B等大规模预训练数据中，明确划分为预训练内概念与预训练外概念两个子集。每个领域均包含对应的IP与OOP子集，图像总数超过15万张，涵盖近千个类别，形成了层次清晰、规模可观的数据结构，为深入探究模型在未知概念上的表现提供了坚实基础。

特点

LAION-Beyond数据集的核心特点在于其首创的多领域预训练外泛化评估框架，系统覆盖了九个差异显著的视觉领域，确保了评估的广泛性与代表性。数据集严格区分预训练内与预训练外概念，这种二分结构使得研究者能够精确量化模型在面对全新视觉概念时的性能衰减。此外，数据集支持从少量样本到零样本等多种学习范式的评测，并提供了详尽的类别映射与数据划分文件，便于复现与扩展研究，为视觉语言模型的泛化能力分析设立了新的标准。

使用方法

使用LAION-Beyond数据集时，研究者可直接通过文件系统访问数据，按照领域文件夹结构加载图像及对应的标签映射与划分文件。数据集亦兼容HuggingFace的datasets库，支持一键加载以简化流程。在评估模型时，可分别针对IP与OOP子集进行零样本或少样本分类实验，重点关注模型在预训练外概念上的图像-文本对齐表现。数据集的标准化结构便于集成各类视觉语言模型，并可用于验证如名称调优等特定算法在提升OOP泛化能力上的有效性。

背景与挑战

背景概述

LAION-Beyond数据集于2025年由Peng Cheng Laboratory、Sun Yat-sen University、EPFL及Jinan University的研究团队联合创建，旨在系统评估视觉-语言模型在预训练数据外概念上的泛化能力。该数据集作为首个多领域基准，聚焦于Out-of-Pre-training（OOP）泛化问题，通过涵盖动物、建筑、服饰等九个领域的图像与文本数据，深入探究模型在处理未见概念时的表现。其核心研究问题在于揭示大规模预训练数据中概念缺失对模型零样本迁移性能的影响，为视觉-语言模型的泛化机制提供了关键实证依据，推动了多模态学习领域向更严谨、可复现的研究范式发展。

当前挑战

LAION-Beyond数据集所针对的领域挑战在于视觉-语言模型对预训练外概念的零样本泛化失效问题。尽管模型图像编码器能为OOP概念形成良好分离的特征簇，但由于预训练阶段缺乏图像-文本对齐，导致类别名称的词嵌入无法与视觉特征有效关联，使得零样本迁移性能显著下降。在数据集构建过程中，挑战主要体现在跨领域概念的系统性筛选与标注，需确保OOP概念完全未出现于LAION-400M/2B/5B等海量预训练数据中，同时维持IP与OOP子集在领域覆盖与数据规模上的平衡，以支持神经缩放定律的深入研究。

常用场景

经典使用场景

在视觉-语言模型的研究领域，LAION-Beyond数据集被广泛用于评估模型在预训练数据之外概念上的泛化能力。该数据集通过精心划分的IP与OOP概念子集，为研究者提供了一个标准化的测试平台，用以检验如CLIP等模型在面对未见概念时的零样本或少样本分类性能。其跨九大领域的丰富数据，使得模型评估能够覆盖从自然生物到文化产物的多样化场景，从而深入揭示模型表征的局限性。

解决学术问题

LAION-Beyond核心解决了视觉-语言模型中预训练数据偏差导致的泛化瓶颈问题。它系统性地量化了模型对预训练未见概念的识别失败，并指出其根源在于图像-文本对齐的缺失，而非视觉特征本身的不足。这一发现挑战了单纯扩大预训练数据规模即可提升泛化的传统假设，推动了针对概念对齐机制的新型优化算法的探索，为理解多模态模型的本质能力提供了关键实证基础。

衍生相关工作

围绕LAION-Beyond的评估发现，已催生了一系列旨在提升OOP泛化的经典工作。其中，论文本身提出的FSNL与ZSNL算法通过微调概念名称嵌入，显著改善了零样本和少样本性能。这些方法启发了后续研究，促使学界更深入地探索视觉-语言模型中文本侧适配、基于图匹配的概念对齐以及无需样本的新型概念发现等方向，共同推动了模型在开放概念理解上的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集