Industrial Language-Image Dataset (ILID)

github2024-06-18 更新2024-06-19 收录

下载链接：

https://github.com/kenomo/ilid

下载链接

链接失效反馈

官方服务：

资源简介：

ILID是一个小型网络爬虫数据集，包含来自不同网络目录的语言-图像样本，代表工业领域的零件/组件。数据集目前有12,537个有效样本，来自五个不同的网络目录，产品范围从标准小尺寸元素到大型设备。

ILID is a small-scale web crawler dataset comprising language-image samples from various web directories, representing parts/components in the industrial sector. The dataset currently contains 12,537 valid samples sourced from five different web directories, with products ranging from standard small-sized elements to large-scale equipment.

创建时间：

2024-06-18

原始信息汇总

数据集概述

数据集名称

Industrial Language-Image Dataset (ILID)

数据集描述

ILID是一个小型网络爬虫数据集，包含来自多个网络目录的语言-图像样本，代表工业领域的零件/组件。目前，该数据集包含12,537个有效样本，来自五个不同的网络目录，涵盖从小型标准元素（如铰链、线性运动元件、轴承或夹具）到大型产品（如剪刀升降机、托盘卡车等）的广泛产品范围。

数据集用途

该数据集用于在CLIP（Contrastive Language-Image Pretraining）上使用不同的迁移学习方法，以支持从对象和材料级分类到语言引导分割的各种下游任务。

数据集结构

每个数据项包含五个标签，结构如下： json { "id": "<<uuid>>", "image": "<<label_short>>/<<uuid>>.png", "url": "<<original image url>>", "label_short": "<<a short label describing the product>>", "label_long": "<<a longer label, longer than the short label>>", "description": "<<a longer description>>", "material": "<<the products material>>", "material_finish": "<<the finish or color of the product>>", "source": "<<the source of the sample>>" }

数据集样本

数据集样本包括多种工业产品，如气缸梁耦合、丙烯酸油缸玻璃、安全离合器弹簧组和自润滑链节等。

数据集获取

可通过提供的json文件下载图像，语言标签已包含在内。若需扩展数据集，可参考Writing a spider部分。

数据集处理步骤

预过滤数据，移除特定名称。
使用Hugging Face Access Token处理数据。
应用后过滤并组合所有处理过的商店数据。
运行download.py下载数据。

联系方式

如需获取数据集的最终后处理元数据或有问题，请联系Keno Moenck（keno.moenck@tuhh.de）。

引用信息

若使用ILID于您的研究，请引用： bibtex @misc{Moenck.14.06.2024, author = {Moenck, Keno and Thieu, Duc Trung and Koch, Julian and Sch{"u}ppstuhl, Thorsten}, title = {Industrial Language-Image Dataset (ILID): Adapting Vision Foundation Models for Industrial Settings}, date = {14.06.2024}, year = {2024}, url = {http://arxiv.org/pdf/2406.09637}, doi = {https://doi.org/10.48550/arXiv.2406.09637} }

搜集汇总

数据集介绍

构建方式

工业语言-图像数据集（ILID）的构建过程经过精心设计，涵盖了六个关键步骤：选择合适的来源、网络爬取、预过滤、处理、后过滤以及下载阶段。首先，通过筛选多个网络目录，确保数据来源的多样性和代表性。随后，利用网络爬虫技术从这些目录中提取语言-图像样本，确保数据的广泛覆盖。预过滤阶段旨在去除不符合标准的数据，而处理阶段则进一步优化数据质量。后过滤阶段确保最终数据集的纯净度，最后通过下载阶段将所有处理后的数据整合成一个完整的数据集。

使用方法

使用ILID数据集时，用户可以通过请求获取数据集的元数据，利用这些元数据下载图像，同时语言标签已包含在提供的JSON文件中。若用户希望扩展数据集，可以通过编写爬虫程序从其他网络商店中提取数据，遵循提供的示例代码进行操作。数据集的下载和处理脚本均已提供，用户只需按照指南运行相应的Python脚本即可。此外，数据集的结构化格式和丰富的标签信息使得其在多种机器视觉应用中具有广泛的使用潜力。

背景与挑战

背景概述

工业语言-图像数据集（ILID）是由汉堡工业大学（TUHH）的飞机生产技术研究所（IFPT）的Keno Moenck、Duc Trung Thieu、Julian Koch和Thorsten Schüppstuhl等人创建的。该数据集旨在通过收集自多个网络目录的语言-图像样本，代表工业领域中的部件和组件，从而推动视觉基础模型在工业环境中的应用。ILID包含12,537个有效样本，涵盖从小型标准元素如铰链、线性运动元件、轴承和夹具，到大型设备如剪叉升降机和托盘车等多种产品。该数据集的创建旨在通过对比语言-图像预训练（CLIP）模型，实现从对象和材料级别的分类到语言引导分割等多种下游任务，从而在工业机器视觉应用中引入视觉基础模型（VFM）。

当前挑战

ILID数据集在构建过程中面临多项挑战。首先，数据来源的多样性和质量控制是主要问题，因为数据来自多个不同的网络目录，需要进行严格的预过滤和后过滤处理。其次，工业领域的产品种类繁多，尺寸和材料差异大，这增加了数据标注和处理的复杂性。此外，尽管数据集已经展示了在语言引导分割等任务中的有效性，但目前仅使用了三个自然语言标签，未来扩展和多样化标签的使用仍是一个重要挑战。最后，数据集的规模相对较小，如何在有限的样本中实现高效的迁移学习，也是一个需要进一步研究的领域。

常用场景

经典使用场景

在工业领域，Industrial Language-Image Dataset (ILID) 数据集的经典使用场景主要集中在语言与图像的对比学习任务中。通过结合语言描述与图像信息，研究人员可以利用该数据集进行多层次的分类任务，如对象级和材料级的分类，以及语言引导的图像分割。这种多模态学习方法不仅提升了模型的理解能力，还为工业部件的自动化识别和分类提供了强有力的工具。

解决学术问题

ILID 数据集解决了工业领域中多模态数据处理的学术难题。传统的图像识别技术在工业环境中往往面临标注数据稀缺和多样性不足的问题。ILID 通过提供丰富的语言和图像配对数据，使得研究人员能够在无需大量人工标注的情况下，进行高效的预训练和迁移学习。这不仅推动了工业视觉模型的发展，也为跨领域的多模态学习研究提供了新的视角。

实际应用

在实际应用中，ILID 数据集被广泛用于工业自动化和智能制造领域。例如，在生产线上的自动化检测系统中，利用 ILID 训练的模型可以快速准确地识别和分类各种工业部件，从而提高生产效率和质量控制。此外，该数据集还可用于工业设备的维护和故障诊断，通过图像和语言信息的结合，实现更精准的故障定位和预测性维护。

数据集最近研究