five

MMVIAD (Multi-view Multi-task Video Industrial Anomaly Detection)

收藏
arXiv2026-05-12 更新2026-05-13 收录
下载链接:
https://github.com/Georgekeepmoving/MMVIAD
下载链接
链接失效反馈
官方服务:
资源简介:
MMVIAD是由上海科技大学、清华大学、美团公司及北京大学联合创建的首个连续多视角工业异常检测视频数据集,旨在模拟真实工业场景中的连续检测过程。该数据集包含4,023个以物体为中心的2秒检测视频片段,覆盖48个物体类别、14种环境和6种结构异常类型,通过可控渲染技术生成对齐的异常标记与未标记视频对,并提供了精确的异常可见时间标注。其核心应用在于推动工业视频异常理解,支持异常检测、缺陷分类、物体分类及异常可见时间定位四项耦合任务,以解决现有静态或稀疏视角数据无法评估视角依赖性缺陷证据随时间连续显现的难题。

MMVIAD is the first continuous multi-view industrial anomaly detection video dataset co-developed by ShanghaiTech University, Tsinghua University, Meituan, and Peking University, which aims to simulate the continuous inspection process in real-world industrial scenarios. The dataset comprises 4,023 object-centric 2-second inspection video clips, spanning 48 object categories, 14 environmental conditions, and 6 types of structural anomalies. Aligned pairs of labeled and unlabeled videos with anomalies are generated through controllable rendering techniques, and precise temporal annotations for anomaly visibility are provided. Its core applications focus on advancing industrial video anomaly understanding, supporting four coupled tasks: anomaly detection, defect classification, object classification, and anomaly visibility localization, to address the challenge that existing static or sparse-view datasets cannot evaluate how perspective-dependent defect evidence emerges continuously over time.
提供机构:
上海科技大学; 清华大学; 美团公司; 北京大学
创建时间:
2026-05-12
原始信息汇总

数据集概述:MMVIAD

MMVIAD(多视角多任务视频工业异常检测) 是一个面向工业检测场景的连续多视角视频数据集与基准测试。该数据集聚焦于结构缺陷,这些缺陷仅在相机围绕物体移动的特定视角间隔内可见。

数据集核心特征

  • 数据形式:每个视觉样本为一段以物体为中心的2秒检测剪辑,涵盖约120度的相机运动范围。
  • 规模:基准测试集包含超过 4,000个问答实例
  • 覆盖范围
    • 48种物体类别
    • 14种环境场景
    • 6种结构异常类型(如裂纹、孔洞、凸起、断裂区域、划痕、凹陷)

评估任务

数据集包含四个耦合的问答式任务:

  1. 异常检测:判断是否存在异常。
  2. 缺陷分类:识别结构缺陷的具体类型。
  3. 物体分类:识别被检测的物体类别。
  4. 异常可见时间定位:定位异常证据在视频中可见的时间区间。

参考模型:VISTA

VISTA 是官方提供的面向MMVIAD的参考后训练基线模型,结合了以下两种方法:

  • PS-SFT(感知结构监督微调):使用结构化推理轨迹初始化模型。
  • VISTA-GRPO(可见性引导工业结构时间异常群体相对策略优化):引入基于语义的缺陷奖励和可见性感知的时间奖励来优化模型。

目标是不仅给出正确的最终答案,还能将异常决策定位到缺陷证据实际可见的视频时间区间。


数据集发布计划

即将公开发布的内容包括:

  • MMVIAD数据集
  • VISTA模型
  • 评估提示与答案解析脚本
  • 基准测试代码与文档

当前仓库正在积极准备中,链接与说明后续会更新。


引用

引用信息将在数据集正式发布后添加。

搜集汇总
数据集介绍
main_image_url
构建方式
MMVIAD依托Anomaly-ShapeNet三维资产,通过Blender可控渲染生成涵盖120度视角变化、时长为2秒的物体中心化视频片段。每个异常对象同步渲染两类对齐视频:无标记视频呈现原始缺陷形态,标记视频以红色高亮缺陷区域。通过逐帧比对与人工校验,获取缺陷可见性时间区间标注。最终将每个片段转化为四项耦合的问答任务,涵盖异常检测、缺陷分类、物体分类与异常可见时间定位,共产生16,092个问答对。
特点
作为首个面向工业异常检测的连续多视角视频数据集,MMVIAD覆盖48种物体类别、14种渲染环境与6类结构性缺陷。其核心亮点在于提供精确的缺陷可见性时间标注,使模型不仅需判断缺陷存在与否,还须定位缺陷在连续视角变化中首次出现与消失的时间区间。四项任务相互依存,缺陷分类依赖异常检测的正确定义,时间定位要求模型将预测与视频证据绑定,从而评估多模态大模型在细粒度语义理解与时间推理上的综合能力。
使用方法
MMVIAD支持两种评测协议:标准协议在48类物体上划分训练集与测试集,用于对比人类与现有模型性能;未见类协议在36类训练、12类未见类上测试,评估跨类别泛化能力。研究者可基于数据集提供的统一问答模板与结构化输出格式,评测模型在异常检测、缺陷分类、物体分类与可见时间定位四项任务上的表现。所有结果均通过解析<answer>标签内的标准化答案获得,确保评测一致性与可复现性。
背景与挑战
背景概述
工业异常检测作为制造业质量控制的核心环节,长久以来受限于静态图像或稀疏视角的数据范式,难以真实反映连续检测场景中缺陷随视角变化的动态特性。为突破这一瓶颈,上海科技大学、清华大学、美团与北京大学的研究团队于2026年联合构建了MMVIAD(多视角多任务视频工业异常检测数据集),这是首个面向工业异常连续多视角视频理解的数据集。该数据集基于可控渲染技术生成物体为中心的2秒检测片段,覆盖120度视角变化,包含48种物体类别、14种环境及6类结构性缺陷。MMVIAD不仅提供了异常检测、缺陷分类、物体分类与异常可见时间定位四项耦合任务的标准化评估接口,更通过对比标记与未标记视频的逐帧差异,首次实现了对视角依赖性缺陷证据可见时间的精确标注。该数据集的问世填补了工业异常检测从静态图像向动态视频理解跨越的关键空白,为视频多模态大模型在精细制造场景中的诊断能力提供了严苛的试金石,其影响力已在多模态视频理解领域引发广泛关注。
当前挑战
MMVIAD所应对的核心挑战在于工业异常检测面临的双重困境。从领域问题层面看,传统数据集仅支持单视角或稀疏多视角的静态图像评估,无法刻画结构性缺陷(如裂纹、凹陷、鼓包)的视角依赖性——同一缺陷可能在一帧中不可见,在另一帧中弱可见,仅在特定视角区间内可明确诊断。MMVIAD要求模型在连续多视角视频中同时完成异常存在性判别、缺陷类型识别、物体分类与可见时间定位四项相互依赖的任务,这远超现有视频多模态大模型的能力边界。从数据集构建层面看,获取精确的缺陷可见时间标签极为困难,真实工业视频难以同时保证视角对齐与缺陷可见性可验证。为此,研究团队采用可控渲染技术生成配对视频,通过逐帧比较标记与未标记版本获取候选区间,再经人工核验,最终实现了对缺陷可见时间的高质量标注。这一精心设计有效规避了光照、材质反射等干扰因素,使得数据集能专一评估模型对结构异常本身的视觉证据理解能力。
常用场景
经典使用场景
MMVIAD作为首个连续多视角视频工业异常检测数据集,经典应用于评估视频多模态大模型在工业质检中对时序性、视角依赖性结构缺陷的联合感知能力。它要求模型同时完成异常检测、缺陷分类、物体识别和异常可见时段定位四项耦合任务,并输出基于时间证据的结构化推理,而非简单的分类标签。该场景尤其适合衡量模型能否在2秒、120度视角变化的视频片段中,捕捉裂纹、凹陷、断裂等微小结构缺陷的瞬时视觉证据。
实际应用
在实际工业质检场景中,MMVIAD所模拟的连续多视角视频范式可广泛应用于自动化产线上的旋转部件外观检测、机器人抓取前的缺陷筛查以及多工位协同质量监控。例如,在汽车零部件或电子产品的外壳检测中,相机沿预定轨迹环绕工件运动,模型需在短时视频中精确定位出裂纹或划痕出现的帧区间,从而辅助人工复检或触发自动剔除。MMVIAD的可见时段标注机制为构建具有证据回放功能的人机协同质检系统提供了关键评估标准。
衍生相关工作
MMVIAD衍生出两项具有代表性的后续工作。一是PS-SFT(感知结构监督微调),通过教师模型生成包含全局感知、时段感知与推理链的结构化SFT数据,赋予基础模型分解视频时序线索的初始能力。二是VISTA-GRPO(能见度引导的工业结构时序异常组相对策略优化),设计了语义门控缺陷奖励和能见度感知时域奖励,通过组相对策略优化在未见物体类别上提升模型泛化性。最终模型VISTA在MMVIAD-Unseen上将Qwen3-VL-8B的平均分从45.0提升至57.5,超越了GPT-5.4等商业模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作