LAION-Beyond
收藏LAION-Beyond 数据集概述
数据集简介
LAION-Beyond 是首个专门用于评估视觉语言模型(如 CLIP、OpenCLIP、EVA-CLIP)预训练外泛化能力的多领域基准数据集。该数据集区分两种视觉概念:预训练内概念(IP)和预训练外概念(OOP)。
关键特性
- 核心目的:评估视觉语言模型对预训练数据中未出现概念的泛化能力。
- 关键发现:研究发现,尽管 OpenCLIP 的图像编码器能为 OOP 概念形成良好分离的聚类,但由于图像-文本对齐失败,零样本迁移性能显著下降。
- 提出算法:数据集相关研究提出了 FSNL(少样本名称学习)和 ZSNL(零样本名称学习)算法,通过微调 OOP 概念的名称嵌入来高效恢复泛化能力。
数据集统计
| 划分 | 图像数量 | 概念数量 |
|---|---|---|
| OOP | 106,052 | 674 |
| IP | 51,330 | 324 |
| 总计 | 157,382 | 998 |
- 涵盖领域:9 个多样化领域,包括动物、建筑、服饰、民间艺术、食物、昆虫与蜘蛛、地标、植物与真菌、宝可梦。
- 数据规模:覆盖 LAION-400M、LAION-2B 和 LAION-5B 规模,以支持神经缩放定律研究。
数据集结构
数据集按领域文件夹组织,每个文件夹命名格式为 {领域}{类别数}_{IP/OOP}(例如 Animals42_IP)。
主要文件:
images/:按类别子文件夹组织的原始图像文件(JPG 格式)。label2name.json:从整数标签到类别名称字符串的映射。name2label.json:从类别名称字符串到整数标签的映射。merged_mapping.json:跨划分的合并标签映射。split_Xin_*.json:每个图像的训练/验证/测试集划分信息。
使用方法
选项一:直接文件访问 python import json import os from PIL import Image
加载标签映射和划分信息,读取图像。
选项二:使用 HuggingFace datasets 库
python
from datasets import load_dataset
dataset = load_dataset("MHuangX/LAION-Beyond")
基准测试结果(400M 划分)
在 OOP 少样本学习(4-shot)任务中,提出的 FSNL 方法在 9 个领域的平均 H-mean 准确率达到 62.55%,优于 OpenCLIP、CoOp 和 CLIP-Adapter 等方法。
许可信息
本数据集采用 知识共享署名-相同方式共享 4.0 国际许可协议 发布。
引用
如果研究中使用 LAION-Beyond,请引用: bibtex @inproceedings{chen2025laionbeyond, title={Reproducible Vision-Language Models Meet Concepts Out of Pre-Training}, author={Chen, Ziliang and Huang, Xin and Fan, Xiaoxuan and Wang, Keze and Zhou, Yuyu and Guan, Quanlong and Lin, Liang}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2025} }
作者与机构
作者:Xin Huang†, Ziliang Chen†, Xiaoxuan Fan, Keze Wang, Yuyu Zhou, Quanlong Guan, Liang Lin* 机构:鹏城实验室、中山大学、洛桑联邦理工学院、暨南大学 († 同等贡献,* 通讯作者)




