VID-AD
收藏VID-AD 数据集概述
数据集简介
VID-AD 是一个用于视觉诱导干扰下的图像级逻辑异常检测的数据集。该数据集旨在解决工业检测中,由于视觉外观变化(如背景杂乱、光照变化和模糊)干扰视觉中心检测器识别规则级违规的挑战。它提供了逻辑状态固定而干扰因素变化的受控设置。
数据集内容与结构
核心构成
- 10个制造场景:Balls(球)、Blocks(积木)、Cookies(饼干)、Dishes(盘子)、Fruits(水果)、Ropes(绳子)、Stationery(文具)、Sticks(棍子)、Tapes(胶带)、Tools(工具)。
- 5种采集条件:Original(原始)、Cable_BG(电缆背景)、Mesh_BG(网格背景)、Low-light_CD(低光条件)、Blurry_CD(模糊条件)。
- 任务与图像数量:共包含50个单类任务和10,395张图像。
- 逻辑约束与异常:每个场景由两个逻辑约束(来自数量、长度、类型、放置和关系)定义,并包含单约束违反和组合违反的异常。
目录结构
数据集根目录为 VID-AD_dataset/,其结构如下:
VID-AD_dataset/ ├── {Category}/ # 例如:Balls, Blocks, Cookies... │ ├── train/ │ │ └── good/ # 正常训练视频帧 │ └── test/ │ ├── good/ # 正常测试视频帧 │ └── logical_anomalies/ # 异常测试视频帧 │ ├── Single-Aspect-A/ # 单方面A异常 │ ├── Single-Aspect-B/ # 单方面B异常(因类别而异) │ └── Dual-Aspects/ # 双方面异常 ├── {Category}_Cable_BG/ # 电缆背景条件 ├── {Category}_Mesh_BG/ # 网格背景条件 ├── {Category}_Blurry_CD/ # 模糊条件 └── {Category}_Low-light_CD/ # 低光条件
获取与使用
下载地址
数据集可通过以下链接下载:https://drive.google.com/file/d/1_UaWAuylvaErnvOq0uxq4gIg_NeSUNdz/view?usp=sharing
使用方法
数据集用于支持一种基于语言的异常检测框架。该框架利用视觉语言模型(VLM)生成正常图像的文本描述,并通过对比学习(使用BERT)学习强调逻辑内容而非低级外观特征的嵌入表示。
基本的代码运行命令如下: bash python verification.py --model qwen
可指定参数处理特定的数据集和条件。
依赖模型
框架使用以下预训练模型(首次使用时从Hugging Face自动下载):
- Qwen2-VL (默认): https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct
- Llama 3.2 Vision: https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct (需要访问批准)
- LLaVA v1.5: https://huggingface.co/llava-hf/llava-1.5-13b-hf
- BERT: https://huggingface.co/google-bert/bert-base-uncased (用于对比学习)
许可协议
本数据集基于 MIT 许可证发布:https://opensource.org/licenses/MIT




