five

Fabric-Image-Data (FID)

收藏
arXiv2025-07-07 更新2025-07-10 收录
下载链接:
https://github.com/rhrobot/Fabric-Image-Data
下载链接
链接失效反馈
官方服务:
资源简介:
Fabric-Image-Data (FID) 数据集包含了12,181张羊毛面料图像,分为四种类型:格子、图案、纯色和条纹。该数据集旨在用于织物图像的分类,但本文将其用于文本到图像的跨模态检索任务。为了支持这一任务,作者为每张图像生成了两种类型的文本描述:自由形式的自然语言描述和基于属性的模板描述。这些描述是通过使用大型语言模型自动生成的,以评估不同视觉语言模型在检索性能上的表现。数据集的创建过程包括使用ChatGPT-4o-mini生成描述,并使用CLIP、LAIONCLIP和Perception Encoder三种视觉语言模型进行检索性能评估。该数据集的应用领域是织物行业,旨在解决基于文本描述检索织物图像的问题。

The Fabric-Image-Data (FID) dataset contains 12,181 wool fabric images categorized into four types: plaid, patterned, solid-color, and striped. While originally intended for fabric image classification, this dataset is employed for text-to-image cross-modal retrieval in this paper. To support this task, the authors generated two types of text descriptions for each image: free-form natural language descriptions and attribute-based template descriptions. These descriptions were automatically generated using large language models to evaluate the retrieval performance of different vision-language models. The dataset construction process involved generating descriptions via ChatGPT-4o-mini, and conducting retrieval performance evaluation using three vision-language models: CLIP, LAIONCLIP, and Perception Encoder. Targeted for the textile industry, this dataset aims to address the challenge of retrieving fabric images based on text descriptions.
提供机构:
Fondazione Bruno Kessler
创建时间:
2025-07-07
原始信息汇总

Fabric Image Data (FID) 数据集概述

数据集基本信息

  • 名称: Fabric Image Data (FID)
  • 用途: 纺织品图像分类
  • 数据量: 12181张羊毛织物图像
  • 图像尺寸: 420×570像素
  • 下载链接: https://pan.baidu.com/s/1qeUYiGd4FQ3PcByu67do_w
  • 提取密码: oj4y

数据分类

  • lattice: 3128张图片
  • pattern: 768张图片
  • solid: 4169张图片
  • stripe: 4116张图片

引用信息

如果FID数据集对您的研究有帮助,请考虑引用以下文献: Liu, R., Yu, Z., Fan, Q. et al. The improved method in fabric image classification using convolutional neural network. Multimed Tools Appl (2023). https://doi.org/10.1007/s11042-023-15573-w

示例图像

  • lattice: image
  • printed: image
  • solid: image
  • stripe: image
搜集汇总
数据集介绍
main_image_url
构建方式
Fabric-Image-Data (FID) 数据集的构建采用了创新的自动化标注流程,通过多模态大语言模型(MLLMs)生成两种类型的文本描述:自由形式的自然语言描述和基于属性的结构化描述。具体而言,研究团队利用ChatGPT-4o-mini为每张织物图像生成独特的描述,包括对织物纹理、颜色、编织类型和图案的详细技术性描述。这一方法有效解决了织物领域缺乏公开标注数据的问题,为跨模态检索任务提供了高质量的图像-文本配对数据。
特点
FID数据集包含12,181张羊毛织物图像,分为四大类别:格子织物、图案织物、纯色织物和条纹织物。每张图像的分辨率为420×570像素,并配有自由形式和结构化两种文本描述。该数据集的特点在于其精细的领域专一性和多样化的描述类型,特别适合评估视觉语言模型在细粒度跨模态检索任务中的性能。结构化描述通过系统化地捕捉织物的关键视觉属性,显著提升了检索的准确性和鲁棒性。
使用方法
在使用FID数据集进行跨模态检索研究时,研究者首先预计算所有图像的嵌入表示,然后提取文本描述的嵌入向量。通过计算文本嵌入与图像嵌入之间的余弦相似度,对检索结果进行排序和评估。该数据集支持对多种视觉语言模型(如CLIP、LAION-CLIP和感知编码器)的性能比较,特别适合研究结构化描述对零样本检索效果的影响。评估指标采用Hit-Rate@Rank,能够全面反映不同模型在细粒度织物检索任务中的表现差异。
背景与挑战
背景概述
Fabric-Image-Data (FID) 数据集由 Fondazione Bruno Kessler 的研究团队于近期构建,旨在解决纺织制造业中跨模态检索的核心问题。该数据集包含 12,181 张羊毛织物图像,涵盖格子、印花、纯色和条纹四种精细分类,每张图像均配有通过多模态大语言模型生成的自由形式和结构化属性描述文本。作为纺织领域首个公开的图文配对数据集,FID 填补了传统视觉语言模型在专业领域适应性研究的空白,为工业级织物检索系统提供了基准测试平台。其创新性的自动标注管道技术,显著降低了专业领域数据标注的学术门槛,推动了计算机视觉与纺织工程的跨学科融合。
当前挑战
FID 数据集面临双重挑战:在领域问题层面,织物图像的细粒度视觉特征(如纹理、编织方式)与文本描述的语义对齐存在显著鸿沟,现有视觉语言模型在零样本检索场景下平均命中率不足40%;在构建过程中,织物样本的视觉相似性导致描述生成模型难以提取判别性特征,需设计特殊的属性模板约束生成过程。此外,专业术语的多义性(如'平纹'在不同语境的指代差异)要求标注系统具备领域知识推理能力,这对通用大语言模型的细粒度理解提出了严峻考验。数据集的类别不平衡问题(印花类仅占6.3%)进一步加剧了模型评估的偏差风险。
常用场景
经典使用场景
在纺织制造业和电子商务领域,Fabric-Image-Data (FID) 数据集被广泛应用于跨模态检索任务。该数据集通过结合视觉语言模型(VLMs)和自动化标注技术,实现了从文本描述到织物图像的高效检索。这一过程不仅优化了传统纺织品的分类和检索流程,还为设计师和制造商提供了快速匹配视觉样本与描述性文本的工具,极大地提升了工作效率。
解决学术问题
FID 数据集解决了纺织领域缺乏高质量标注数据的学术难题。通过引入基于多模态大语言模型(MLLMs)的自动化标注流程,该数据集生成了两种类型的文本描述:自由形式的自然语言描述和基于属性的结构化描述。这一创新不仅填补了领域内数据集的空白,还为研究者在零样本跨模态检索任务中提供了可靠的基准,推动了视觉语言模型在细粒度领域中的应用研究。
衍生相关工作
FID 数据集的推出催生了一系列相关研究,特别是在跨模态检索和视觉语言模型的优化方面。例如,有研究基于该数据集探索了如何结合CLIP和LAION-CLIP模型提升纺织图像的检索精度;另一项工作则利用Meta的Perception Encoder模型,验证了结构化描述在复杂织物类别中的优势。这些衍生研究进一步扩展了数据集的应用范围,并为纺织行业的智能化发展提供了理论支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作