VID-AD

github2026-03-26 更新2026-03-23 收录

下载链接：

https://github.com/nkthiroto/VID-AD

下载链接

链接失效反馈

官方服务：

资源简介：

VID-AD是一个用于视觉诱导干扰下的图像级逻辑异常检测的数据集，包含10个制造场景和五种捕获条件，共生成50个单类任务和10,395张图像。每个场景由两个逻辑约束（数量、长度、类型、放置和关系）定义，并包括单约束和组合约束的违规情况。

VID-AD is a dataset designed for image-level logical anomaly detection under visually induced disturbances. It comprises 10 manufacturing scenarios and five capture conditions, yielding a total of 50 one-class tasks and 10,395 images. Each scenario is defined by logical constraints including quantity, length, type, placement and relationship, and covers both single-constraint violations and combined constraint violations.

创建时间：

2026-03-09

原始信息汇总

VID-AD 数据集概述

数据集简介

VID-AD 是一个用于视觉诱导干扰下的图像级逻辑异常检测的数据集。该数据集旨在解决工业检测中，由于视觉外观变化（如背景杂乱、光照变化和模糊）干扰视觉中心检测器识别规则级违规的挑战。它提供了逻辑状态固定而干扰因素变化的受控设置。

数据集内容与结构

核心构成

10个制造场景：Balls（球）、Blocks（积木）、Cookies（饼干）、Dishes（盘子）、Fruits（水果）、Ropes（绳子）、Stationery（文具）、Sticks（棍子）、Tapes（胶带）、Tools（工具）。
5种采集条件：Original（原始）、Cable_BG（电缆背景）、Mesh_BG（网格背景）、Low-light_CD（低光条件）、Blurry_CD（模糊条件）。
任务与图像数量：共包含50个单类任务和10,395张图像。
逻辑约束与异常：每个场景由两个逻辑约束（来自数量、长度、类型、放置和关系）定义，并包含单约束违反和组合违反的异常。

目录结构

数据集根目录为 VID-AD_dataset/，其结构如下：

VID-AD_dataset/ ├── {Category}/ # 例如：Balls, Blocks, Cookies... │ ├── train/ │ │ └── good/ # 正常训练视频帧 │ └── test/ │ ├── good/ # 正常测试视频帧 │ └── logical_anomalies/ # 异常测试视频帧 │ ├── Single-Aspect-A/ # 单方面A异常 │ ├── Single-Aspect-B/ # 单方面B异常（因类别而异） │ └── Dual-Aspects/ # 双方面异常 ├── {Category}_Cable_BG/ # 电缆背景条件 ├── {Category}_Mesh_BG/ # 网格背景条件 ├── {Category}_Blurry_CD/ # 模糊条件 └── {Category}_Low-light_CD/ # 低光条件

获取与使用

下载地址

数据集可通过以下链接下载：https://drive.google.com/file/d/1_UaWAuylvaErnvOq0uxq4gIg_NeSUNdz/view?usp=sharing

使用方法

数据集用于支持一种基于语言的异常检测框架。该框架利用视觉语言模型（VLM）生成正常图像的文本描述，并通过对比学习（使用BERT）学习强调逻辑内容而非低级外观特征的嵌入表示。

基本的代码运行命令如下： bash python verification.py --model qwen

可指定参数处理特定的数据集和条件。

依赖模型

框架使用以下预训练模型（首次使用时从Hugging Face自动下载）：

Qwen2-VL (默认): https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct
Llama 3.2 Vision: https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct （需要访问批准）
LLaVA v1.5: https://huggingface.co/llava-hf/llava-1.5-13b-hf
BERT: https://huggingface.co/google-bert/bert-base-uncased （用于对比学习）

许可协议

本数据集基于 MIT 许可证发布：https://opensource.org/licenses/MIT

搜集汇总

数据集介绍

构建方式

在工业视觉检测领域，逻辑异常检测常受视觉外观变化干扰，现有基准数据集缺乏对此类干扰因素的严格控制。VID-AD数据集通过精心设计，构建了涵盖十个制造场景的多样化数据，每个场景均定义了两项逻辑约束，涉及数量、长度、类型、放置与关系等维度。数据采集过程在五种捕获条件下进行，包括原始背景、电缆背景、网格背景、低光照与模糊条件，从而生成了五十个单类检测任务与总计一万余张图像。正常样本与异常样本均基于逻辑约束的违反情况生成，确保了数据在视觉干扰下的逻辑一致性。

特点

该数据集的核心特点在于其针对视觉诱导干扰的鲁棒性评估能力，通过固定逻辑状态并系统性地引入背景杂乱、光照变化与模糊等干扰因素，模拟了真实工业环境中的复杂条件。数据集中每个制造场景均包含单约束违反与双约束违反的异常类型，覆盖了从简单规则违反到复合逻辑错误的多种情况。丰富的场景多样性，如球体、积木、绳索等十个类别，为模型泛化性能提供了全面测试基础。数据集结构清晰，按场景与条件分层组织，便于研究者进行跨条件与跨类别的对比实验。

使用方法

使用VID-AD数据集时，研究者需首先下载数据集文件，并按照提供的目录结构组织数据，其中训练集仅包含正常样本，测试集则涵盖正常与逻辑异常样本。数据集中附带的代码框架支持基于视觉语言模型的异常检测方法，用户可通过命令行参数指定使用的模型、处理的数据集类别与捕获条件。典型流程包括利用预定义的提示文件生成正常图像的文本描述，进而通过对比学习训练嵌入表示，以强调逻辑内容而非低级视觉特征。实验配置灵活，允许针对特定场景或条件进行定制化评估，从而系统性地验证模型在视觉干扰下的逻辑异常检测性能。

背景与挑战

背景概述

在工业视觉检测领域，逻辑异常检测旨在识别违反预设规则或结构关系的缺陷，而非仅关注外观瑕疵。然而，现有基准数据集常受视觉干扰因素影响，难以在控制变量下评估模型对逻辑状态的判别能力。为填补这一空白，VID-AD数据集应运而生，其由研究团队于2026年通过arXiv预印本首次公开，专注于在视觉诱导干扰下进行图像级逻辑异常检测。该数据集涵盖十个制造场景与五种采集条件，构建了五十个单类检测任务，共计一万余张图像，核心研究问题在于如何使模型在背景杂乱、光照变化及模糊等干扰下，依然能精准捕捉数量、长度、类型等逻辑约束的违反情况。VID-AD的推出为工业检测与视觉-语言模型融合研究提供了严谨的评估基准，推动了逻辑理解在异常检测中的深入应用。

当前挑战

逻辑异常检测本身面临的核心挑战在于，模型需超越表观特征，深入理解场景中的抽象规则与关系，而传统方法易受视觉干扰误导，导致对逻辑违例的漏检或误判。在数据集构建过程中，研究者需精心设计可控实验环境，确保逻辑状态固定而视觉干扰因素系统化变异，这涉及复杂的数据采集协议与标注规范。此外，生成涵盖单约束与双约束违例的异常样本，并要求其与正常样本在低层视觉上高度相似，增加了数据制备的难度与成本。这些挑战共同凸显了VID-AD在推动鲁棒性逻辑理解模型发展中的关键价值。

常用场景

经典使用场景

在工业视觉检测领域，逻辑异常检测常因背景杂乱、光照变化或图像模糊等视觉干扰而面临挑战。VID-AD数据集通过精心设计的10个制造场景和5种采集条件，构建了50个单分类任务，为研究者提供了一个可控的测试平台。该数据集最经典的使用场景在于评估和开发能够抵抗视觉干扰、专注于识别逻辑规则违反的异常检测模型，例如在固定逻辑约束下检测物体数量、类型、位置或关系的违规情况。

解决学术问题

该数据集主要解决了工业检测中逻辑异常检测受视觉表象变化干扰的核心学术问题。传统方法往往被低层外观特征所迷惑，而VID-AD通过固定逻辑状态并系统性地引入背景、光照、模糊等干扰因素，使得研究能够分离并专注于逻辑层面的违规识别。其意义在于推动了检测模型从感知外观到理解规则的范式转变，为构建更鲁棒、可解释的工业视觉系统提供了关键的基准数据支撑。

衍生相关工作

围绕VID-AD数据集，已衍生出以语言为核心的异常检测框架等经典工作。该框架利用视觉语言模型从正常图像生成文本描述，并通过对比学习，使用正常文本和基于矛盾合成的负样本来训练BERT编码器，从而学习到强调逻辑内容而非低层外观的特征嵌入。这项工作展示了结合视觉与语言模态以提升模型逻辑推理能力的有效路径，为后续研究如何利用先验知识或语义信息来增强异常检测的泛化性提供了重要启发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集