five

WSADBench

收藏
arXiv2026-05-26 更新2026-05-27 收录
下载链接:
https://github.com/SUFE-AILAB/WSADBench
下载链接
链接失效反馈
官方服务:
资源简介:
WSADBench是一个由上海财经大学研究团队构建的综合性弱监督异常检测基准数据集,旨在系统评估不同监督缺陷场景下的算法性能。该数据集涵盖表格、图像、文本和视频四种模态,共整合61个数据集,数据来源包括ADBench基准中的经典数据集以及重新收集处理的真实世界监控视频数据。其创建过程严格遵循标准化协议,通过统一特征表示、标注对齐和可复现配置来确保评估的公平性。该数据集主要应用于异常检测领域,旨在解决弱监督学习中标签不完整、不精确和不准确三大核心挑战,为算法比较和理论研究提供统一的实验平台。

WSADBench is a comprehensive weakly-supervised anomaly detection benchmark dataset developed by the research team from Shanghai University of Finance and Economics, aiming to systematically evaluate algorithm performance under various supervision-deficient scenarios. This dataset covers four modalities: tabular, image, text and video, integrating a total of 61 datasets. Its data sources include classic datasets from the ADBench benchmark as well as newly collected and processed real-world surveillance video data. Its construction strictly follows standardized protocols, ensuring evaluation fairness through unified feature representation, annotation alignment and reproducible configuration settings. Primarily applied in the field of anomaly detection, this dataset targets to address the three core challenges in weakly-supervised learning: incomplete, imprecise and inaccurate labels, providing a unified experimental platform for algorithm comparison and theoretical research.
提供机构:
上海财经大学; 蚂蚁集团; 上海财经大学·计算与经济学交叉研究重点实验室
创建时间:
2026-05-26
原始信息汇总

WSADBench 数据集与基准平台概述

WSADBench 是一个专为弱监督异常检测(Weakly-Supervised Anomaly Detection, WSAD)设计的综合性基准平台,对应的论文已被 KDD 2026 数据集与基准赛道接收。该平台支持多种数据模态和灵活的监督设置,集成了超过 30 种基线模型,并提供了可复现的实验框架。

核心特性

  • 多模态数据支持:涵盖表格数据(经典、计算机视觉特征、自然语言处理嵌入)、视频数据以及多示例学习(MIL)包数据。
  • 丰富的基线模型:集成 30 多种弱监督、半监督和无监督异常检测方法。
  • 灵活的监督设置:支持配置标记异常样本比例(RLA)、标记正常样本比例(ELN)、未标记样本比例以及标签噪声。
  • 并行执行:支持多 GPU 运行,并具备自动 GPU 分配功能。
  • 可复现实验:内置结果日志、实验恢复能力和统计报告生成。

支持的数据类型

数据类型 命令行标识 描述
经典表格数据 tabular_classical 传统异常检测基准数据集(共 47 个)。
CV特征 (ResNet18) tabular_CV_by_ResNet18 使用 ResNet18 提取的图像特征。
CV特征 (ViT) tabular_CV_by_ViT 使用 ViT 提取的图像特征。
NLP特征 (BERT) tabular_NLP_by_BERT 使用 BERT 提取的文本嵌入。
NLP特征 (RoBERTa) tabular_NLP_by_RoBERTa 使用 RoBERTa 提取的文本嵌入。
视频数据 video 视频异常检测数据(支持 I3D 等特征)。
MIL包数据 classical_bags_inexact 以多示例学习包格式组织的经典表格数据。

支持的模型类型(部分示例)

WSADBench 集成了多种弱监督(实例级)模型,按技术类别划分如下:

模型 命令行标识 类别 描述
DevNet DevNet 分数学习 利用有限监督进行偏差网络异常检测。
DeepSAD DeepSAD 分数学习 通过单类分类实现深度半监督异常检测。
REPEN REPEN 表征学习 面向正例-无标签学习的表征学习。
XGBOD XGBOD 表征学习 用于异常检测的特征增强方法。
RoSAS RoSAS 数据增强 鲁棒的半监督异常分割方法。
DDAE AnoDDAE 扩散自编码器 基于扩散自编码器的异常检测方法。

注:平台还包含对其他模型的支持,如用于多示例学习的 Sultani 和基于梯度提升的 CatB 等。

数据准备

数据集来源于两部分,用户可通过统一的 Python 脚本 (download_dataset.py) 自动下载。

  1. ADBench 数据集:整合自 ADBench 项目,包含表格数据、图像和文本特征,可从镜像直接拉取 .npz 文件。
  2. WSADBench 官方数据集:由项目团队在 ModelScope 平台提供,包含视频异常检测(VAD)、分布外(OOD)检测和经典表格 MIL 包数据。脚本会自动下载、解压并清理归档文件。

下载命令示例:

  • 下载全部数据:python WSADBench/datasets/download_dataset.py --datasets WSAD ADBench
  • 下载所有基于 MViT_32 的 VAD 数据集:python WSADBench/datasets/download_dataset.py --datasets CV_by_MViT_32
  • 下载单个数据集:python WSADBench/datasets/download_dataset.py --datasets Classical

实验复现

WSADBench 提供了丰富的命令行参数以复现论文中的各类实验,涵盖:

  1. 基础异常检测与多示例学习实验:支持在不同的表格数据(经典、CV、NLP)、视频数据和 MIL 包数据上运行模型。 shell

    在经典表格数据上运行 DevNet

    python -m run_experiment --data_type tabular_classical --models DevNet

    在视频数据上运行 DevNet

    python -m run_experiment --data_type video --models DevNet --dataset TAD seg_32_pm_mvit

  2. 基础模型评估:支持对 TabPFN 和 LimiX 等模型进行特定配置(如单独的 Python 环境、预训练检查点下载)下的实验。 shell

    运行 TabPFN(需下载预训练检查点)

    python -m run_experiment --data_type tabular_classical --models TabPFN

  3. 敏感性分析实验:评估模型在不完整监督(改变标记异常比例、未标记数据比例)和不准确监督(引入标签噪声)下的鲁棒性。 shell

    改变标记异常比例 (RLA)

    python -m run_experiment --data_type tabular_classical --models DevNet --rla_list 0.01 0.05 0.1 0.25 0.5 1.0

    引入正常样本标签噪声 (flip_nr)

    python -m run_experiment --data_type tabular_classical --models RoSAS --flip_nr_list 0.01 0.05 0.1 0.25 0.5 --noise_type label_contamination

  4. 分布外(OOD)检测实验:支持在多种 OOD 场景(如 ID近/OOD远、语义级OOD)下评估模型性能。 shell

    运行 ID远, OOD近 设定

    python -m run_experiment --data_type tabular_CV_by_ResNet18_OOD --models DevNet --exp_note rla_emb_know_far_inc --dataset metal_nut

许可信息

  • 代码许可:MIT License。
  • 数据许可:Creative Commons Attribution 4.0 International (CC BY 4.0)。
搜集汇总
数据集介绍
main_image_url
构建方式
在弱监督异常检测领域,不完整监督、不精确监督与不准确监督三大范式长期孤立发展,缺乏统一评估框架。WSADBench作为首个贯通三种弱监督场景的基准平台,系统整合了来自表格、图像、文本与视频四种模态的61个数据集。其构建核心在于标准化协议:统一特征提取器以排除表示层面干扰,对齐真实标签定义以消除标注一致性偏差,并通过系统化调控标签数量、粒度与质量来生成超过70万组实验,从而在可控条件下揭示算法性能边界。
特点
WSADBench的突出特点在于其跨场景统一评估能力,打破了传统研究范式间的壁垒。该基准涵盖36种算法,既包括专门设计的弱监督异常检测方法,也纳入表格基础模型与通用分类器。通过多维度实验设计,该基准揭示了四项关键发现:弱监督场景间存在强内在关联;专业算法仅在极端标签稀缺时占优;无标签数据的效用高度依赖标签可用性;模型对不同类型标签噪声呈现非对称敏感性。
使用方法
研究者可通过公开代码仓库获取WSADBench全部资源,利用其标准化流水线进行算法评估与对比。该基准支持在四种数据模态下,通过调节标签比例(如1%至100%)、标签数量(如1至50个)及噪声类型(如翻转正常/异常标签)等参数,系统评估算法性能。特别地,WSADBench提供了跨场景迁移评估协议,允许将专为某类监督缺陷设计的方法应用于其他场景,从而检验其泛化能力。
背景与挑战
背景概述
在异常检测领域,现实系统往往只能获取到标签稀缺、粒度粗糙或受噪声污染的弱监督信号,这一困境催生了弱监督异常检测(WSAD)这一重要研究方向。然而,WSAD领域中不完整监督、不精确监督和不准确监督这三个方向长期以来相互孤立,缺乏统一评估框架,导致不同研究间的比较因特征提取器、标签定义和实验协议的不一致而难以进行。为填补这一空白,Xu Yao等来自上海财经大学与蚂蚁集团的研究人员于2026年提出了WSADBench,首个跨弱监督场景的统一评测基准。该基准涵盖表格、图像、文本和视频四种模态,系统评估了36种算法在61个数据集上的表现,通过超过70万次实验揭示了不同方法在标签数量、粒度和质量变化下的性能边界,对推动WSAD领域的系统化发展产生了深远影响。
当前挑战
WSAD领域面临的核心挑战在于解决三种标签缺陷场景之间的内在关联性评估问题,传统上这些场景被孤立研究,缺乏统一的框架来验证它们是否共享基础机制或代表各自独特的问题。在构建WSADBench过程中,首个巨大挑战是建立标准化的评估协议,以消除不同工作间因特征提取器不一致、标签定义不兼容和实验协议多样导致的比较困难——例如,视频异常检测中I3D与C3D特征提取器的选用会显著影响排名结果。此外,构建过程还需系统性地变化标签数量、粒度和质量参数,在多种模态下覆盖多样化的算法类型,从专门的WSAD方法到先进的表格基础模型,以揭示在极端标签稀缺、分布外泛化及不对称标签噪声敏感性等挑战下不同方法的真实性能边界与鲁棒性局限。
常用场景
经典使用场景
在异常检测领域,弱监督学习面临标签在数量、粒度和质量上的多重不完美性,然而现有研究长期将不完全、不精确和不准确这三种弱监督范式彼此割裂。WSADBench作为首个统一评估框架,系统性地整合了61个覆盖表格、图像、文本与视频四种模态的数据集,通过严格控制标签数量、粒度与噪声的协议,为36种算法在超过70万次实验中的表现提供了标准化基准。该数据集最经典的用途在于横向对比不同弱监督策略(如正无标记学习、多实例学习、噪声鲁棒学习)在统一尺度上的效能边界,从而揭示各范式间的内在关联与可迁移潜力。
实际应用
在实际应用中,WSADBench为金融欺诈检测、医学诊断、工业缺陷检查和视频监控等高风险任务提供了极具价值的模型选择与部署指南。其核心洞察表明,在有限但质量可控的标注场景下,从业者应优先采用表格基础模型或梯度提升树等通用框架,而非投入资源设计复杂的弱监督专用网络。对于存在大量未标注数据的工业环境,数据集揭示出中等标注规模(如10至50个异常样本)是充分利用未数据扩展正常流形的最佳区间,该指导原则能有效降低部署成本并提升生产系统的诊断准确性。
衍生相关工作
WSADBench的推出催生了多项重要的衍生研究方向。基于其揭示的专业算法在极端标签稀缺场景下的优势,研究者进一步探索了如何将异构弱监督信号融合以提升性能。其对未标注数据边际效用的量化启发了一系列关于主动学习与标注预算分配的新工作。更重要的是,数据集揭露的模型对异常类噪声与非对称噪声的敏感度差异,直接推动了对噪声清洗策略的再评估——例如自动清洗工具Cleanlab虽能修复部分脆弱模型,却会损害本来鲁棒的结构,这一悖论催生了面向异常检测的稳健去噪新方法。此外,基于其OOD泛化分析,学界开始系统研究如何设计能学习通用异常模式的根本性算法,从而突破ID过拟合的局限。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作