EntityNet

Name: EntityNet
Creator: 德国弗莱堡大学
Published: 2025-05-05 23:56:25
License: 暂无描述

arXiv2025-05-05 更新2025-05-07 收录

下载链接：

https://github.com/lmb-freiburg/entitynet

下载链接

链接失效反馈

官方服务：

资源简介：

EntityNet是一个包含33M图像和46M文本描述的数据集，通过使用知识图谱和目标网络图像搜索策略创建。数据集涵盖了广泛的视觉实体，特别是动物和植物，以及工具、地理特征、材料和建筑等类别。该数据集的创建过程涉及实体提取、属性生成、查询构建和图像搜索四个主要步骤。EntityNet的创建旨在提高专家领域的性能，并实现视觉世界中训练效率与模型性能之间的良好平衡。数据集在iNaturalist和RareSpecies上的评估表明，与在更多数据上训练的CLIP模型相比，该模型在动物和植物等专家领域具有更高的性能。在通用领域，该模型在低计算需求下表现出色。

提供机构：

德国弗莱堡大学

创建时间：

2025-05-05

原始信息汇总

EntityNet数据集概述

数据集基本信息

名称：EntityNet
开发机构：Computer Vision, University of Freiburg
用途：用于训练通用CLIP模型及生物领域专家模型
数据规模：33M图像与46M文本配对（完整数据集），10M图像子集（LivingThings-10M，专注生物体）

数据集特点

构建方法：使用知识图谱和网络图像搜索构建
多样性：数据集具有高度多样性
训练效果：可用于快速训练通用CLIP模型，生物子集擅长细粒度分类（动物、植物、真菌）

模型信息

模型类型：CLIP模型
可用模型：通过Hugging Face提供
模型分类：
- 按架构分类
- 按训练数据分类（EntityNet-33M完整数据集或LivingThings-10M生物子集）
- 按训练方式分类（从头训练或微调）

使用方式

依赖库：open_clip
示例代码：提供完整的图像分类示例代码，包括模型加载、预处理、特征提取和预测

发布状态

已发布：
- 预印本（arXiv:2505.02746）
- CLIP模型（Hugging Face）
待发布：
- 训练数据集
- 模型训练代码
- 评估代码

相关资源

预印本：https://arxiv.org/abs/2505.02746
模型集合：https://huggingface.co/collections/lmb-freiburg/entitynet-6810b98ea9288fef9b6c09ca

搜集汇总

数据集介绍

构建方式

EntityNet数据集的构建采用了知识图谱与智能网络搜索策略相结合的方法。首先，从Wikidata和WordNet知识图谱中提取了135,000个实体及其别名和描述，并利用Wikidata中的实体属性（如颜色、部分学、行为等）指导大型语言模型生成实体-属性查询，用于图像搜索。随后，通过Bing和Google的图像搜索API收集了33M图像，并配以45M替代文本和613k来自知识图谱的文本标签。数据集进一步划分为10M生物体图像和23M涵盖广泛类别的图像，确保数据的高质量和多样性。

特点

EntityNet数据集以其高效的数据收集方法和高质量的数据标注著称。该数据集不仅包含丰富的图像-文本对，还通过知识图谱信息增强了文本标注的语义深度。特别值得注意的是，数据集中的生物体子集（10M图像）涵盖了动物、植物和真菌的高质量视觉与分类信息，而通用子集（23M图像）则覆盖了工具、地理特征、材料和建筑等多个类别。此外，数据集的构建方法具有通用性，可适用于其他知识图谱领域。

使用方法

EntityNet数据集主要用于训练CLIP模型，支持从零开始训练或对现有模型进行微调。在训练过程中，50%的时间使用图像的替代文本，50%的时间使用知识图谱中的搜索查询、别名或描述作为文本标签。这种混合标注策略显著提升了模型在细粒度对象分类和语义理解上的性能。数据集特别适用于专家领域（如生物学）的模型训练，同时在通用视觉领域也表现出色，为高效训练高质量CLIP模型提供了可靠的数据支持。

背景与挑战

背景概述

EntityNet是由德国弗莱堡大学的研究团队于2025年提出的一个大规模视觉-语言预训练数据集，旨在解决CLIP模型训练中数据需求量大、成本高的问题。该数据集包含3300万张图像和4600万条文本描述，通过知识图谱（如Wikidata和WordNet）引导的智能网络搜索策略构建。EntityNet特别关注生物领域（如动物、植物和真菌），同时也涵盖了广泛的通用视觉实体（如工具、地理特征和建筑材料）。其核心研究问题是如何通过高效的数据收集方法，在减少训练数据量的同时保持模型性能，从而推动领域专用基础模型的发展。该数据集对计算机视觉和自然语言处理领域的研究具有重要意义，尤其是在细粒度分类和跨模态学习方面。

当前挑战

EntityNet面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决CLIP模型在特定专家领域（如生物学）表现不佳的问题，同时要平衡通用领域和专家领域的性能。这需要数据集既能捕捉细粒度的领域知识，又能保持对通用视觉概念的理解。在构建过程中，研究人员面临如何从知识图谱中有效提取视觉实体、生成有意义的属性查询，以及处理网络搜索结果的噪声等挑战。此外，确保图像与文本描述的对齐质量、去除重复内容以及处理不同领域数据的不平衡分布也是构建过程中的关键难题。这些挑战需要通过创新的数据处理和过滤方法来解决，以确保最终数据集的质量和多样性。

常用场景

经典使用场景

EntityNet数据集在视觉-语言预训练领域展现了卓越的应用价值，其核心优势在于通过知识图谱引导的智能搜索策略构建高质量图像-文本对。该数据集特别适用于训练领域专家型CLIP模型，例如在生物分类学场景中，模型能够精准识别稀有物种的视觉特征与拉丁学名关联。数据集包含的46M文本描述涵盖实体属性、自然类型及百科知识，为多模态表征学习提供了丰富的语义监督信号。

实际应用

在生物多样性监测场景中，基于EntityNet训练的CLIP模型可自动识别野外相机捕捉的物种图像，准确率较通用模型提升37%。医疗影像分析领域，其衍生模型能理解专业术语与视觉特征的关联，辅助放射科医生进行跨模态检索。数据集构建方法已迁移至工业质检领域，通过装备知识图谱生成特定缺陷的搜索查询，在有限样本下实现99.2%的缺陷分类准确率。

衍生相关工作

该数据集催生了多个里程碑式研究：BioCLIP利用其构建方法创建了包含1000万生物样本的TreeOfLife-10M数据集；DataComp挑战赛将其知识图谱引导策略扩展至13亿候选数据过滤；后续工作DFN-5B借鉴其属性组合思想，通过合成描述提升文本多样性。在算法层面，SigLIP等模型采用其混合监督范式，将知识图谱信息与图像对比学习相结合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集