Industrial Language-Image Dataset (ILID)
收藏数据集概述
数据集名称
Industrial Language-Image Dataset (ILID)
数据集描述
ILID是一个小型网络爬虫数据集,包含来自多个网络目录的语言-图像样本,代表工业领域的零件/组件。目前,该数据集包含12,537个有效样本,来自五个不同的网络目录,涵盖从小型标准元素(如铰链、线性运动元件、轴承或夹具)到大型产品(如剪刀升降机、托盘卡车等)的广泛产品范围。
数据集用途
该数据集用于在CLIP(Contrastive Language-Image Pretraining)上使用不同的迁移学习方法,以支持从对象和材料级分类到语言引导分割的各种下游任务。
数据集结构
每个数据项包含五个标签,结构如下: json { "id": "<<uuid>>", "image": "<<label_short>>/<<uuid>>.png", "url": "<<original image url>>", "label_short": "<<a short label describing the product>>", "label_long": "<<a longer label, longer than the short label>>", "description": "<<a longer description>>", "material": "<<the products material>>", "material_finish": "<<the finish or color of the product>>", "source": "<<the source of the sample>>" }
数据集样本
数据集样本包括多种工业产品,如气缸梁耦合、丙烯酸油缸玻璃、安全离合器弹簧组和自润滑链节等。
数据集获取
可通过提供的json文件下载图像,语言标签已包含在内。若需扩展数据集,可参考Writing a spider部分。
数据集处理步骤
- 预过滤数据,移除特定名称。
- 使用Hugging Face Access Token处理数据。
- 应用后过滤并组合所有处理过的商店数据。
- 运行
download.py下载数据。
联系方式
如需获取数据集的最终后处理元数据或有问题,请联系Keno Moenck(keno.moenck@tuhh.de)。
引用信息
若使用ILID于您的研究,请引用: bibtex @misc{Moenck.14.06.2024, author = {Moenck, Keno and Thieu, Duc Trung and Koch, Julian and Sch{"u}ppstuhl, Thorsten}, title = {Industrial Language-Image Dataset (ILID): Adapting Vision Foundation Models for Industrial Settings}, date = {14.06.2024}, year = {2024}, url = {http://arxiv.org/pdf/2406.09637}, doi = {https://doi.org/10.48550/arXiv.2406.09637} }




