ReTabAD Benchmark Datasets

github2025-09-30 更新2025-10-04 收录

下载链接：

https://github.com/yoonsanghyu/ReTabAD

下载链接

链接失效反馈

官方服务：

资源简介：

ReTabAD是一个用于恢复表格异常检测中语义上下文的新型基准测试。它包含20个多样化数据集，涵盖多个领域，提供原始数据配以包含列描述、逻辑类型和正常数据特征的全面JSON元数据。该基准保留了语义信息，支持传统机器学习、深度学习和现代语言模型方法的公平比较

ReTabAD is a novel benchmark for restoring semantic context in tabular anomaly detection. It consists of 20 diverse datasets spanning multiple domains, providing raw data paired with comprehensive JSON metadata that includes column descriptions, logical types, and characteristics of normal data. This benchmark preserves semantic information and supports fair comparative evaluations across traditional machine learning, deep learning, and modern language model approaches.

创建时间：

2025-09-30

原始信息汇总

ReTabAD 数据集概述

数据集简介

ReTabAD是一个用于恢复表格异常检测中语义上下文的基准测试集，旨在解决现有表格异常检测基准与工业实践之间的脱节问题。该基准通过恢复文本语义来支持上下文感知研究。

核心特性

语义丰富的数据集：提供原始数据及包含列描述、逻辑类型和正常数据特征的完整JSON元数据
保留语义信息：采用统一流程保留语义信息，支持传统机器学习、深度学习和现代语言模型方法的公平比较
展示LLM潜力：评估大型语言模型作为零样本异常检测器的能力，在注入领域知识后平均AUROC提升9.5%

数据集规模

包含20个多样化数据集，涵盖多个领域：

数据集名称	数据点数	列数	正常样本数	异常样本数	异常比例(%)
automobile	159	25	117	42	26.42
backdoor	29,223	42	29,113	110	0.38
campaign	7,842	16	6,056	1,786	22.77
cardiotocography	2,126	21	1,655	471	22.15
census	50,000	41	47,121	2,879	5.76
churn	7,032	19	5,163	1,869	26.58
cirrhosis	247	17	165	82	33.20
covertype	50,000	12	49,520	480	0.96
credit	30,000	23	23,364	6,636	22.12
equip	7,672	6	6,905	767	10.00
gallstone	241	38	161	80	33.20
glass	214	9	163	51	23.83
glioma	730	23	487	243	33.29
quasar	50,000	8	40,520	9,480	18.96
seismic	2,584	18	2,414	170	6.58
stroke	4,909	10	4,700	209	4.26
vertebral	310	6	210	100	32.26
wbc	535	30	357	178	33.27
wine	178	13	130	48	26.97
yeast	1,484	8	1,389	95	6.40

使用方式

支持单实验运行和超参数调优两种模式：

单实验运行：使用run_default.py脚本配置数据集、模型和配置文件
超参数调优：使用run_hpo.py脚本配合Optuna进行超参数优化

搜集汇总

数据集介绍

构建方式

在表格异常检测领域，ReTabAD基准数据集的构建突破了传统范式对语义信息的剥离。该数据集通过保留原始文本特征与结构化数据的关联，创新性地采用JSON元数据文件记录列描述、逻辑类型及正常数据特征，构建起包含20个跨领域数据集的标准化语料库。其数据采集过程严格遵循工业场景的真实分布，每个数据集均标注了精确的异常比例和样本数量，为上下文感知的异常检测研究奠定了坚实基础。

特点

该数据集最显著的特征在于其语义完整性的保留机制。通过将文本特征从传统编码中解放出来，数据集不仅包含原始数值关系，更融合了描述性元数据构成的语义网络。这种设计使得传统机器学习、深度学习与大语言模型能在统一框架下进行公平比较，特别是为零样本异常检测提供了丰富的上下文信息。数据集的多样性体现在覆盖医疗、金融、工业等十余个领域，异常比例从0.38%到33.29%呈阶梯分布，有效模拟了真实场景的数据复杂性。

使用方法

研究者可通过Docker容器快速部署实验环境，利用标准化命令行接口开展模型验证。数据集支持两种典型使用模式：通过run_default.py脚本执行单次实验配置，或借助run_hpo.py实现基于Optuna的超参数优化。实验过程中可实时监控调参进度，并通过指定随机种子确保结果可复现。这种模块化设计既满足了快速原型验证的需求，又为系统性的方法比较提供了严谨的实验框架。

背景与挑战

背景概述

ReTabAD基准数据集于2024年由研究团队提出，旨在解决工业实践中表格异常检测领域的关键缺陷。传统基准在预处理阶段常将文本特征转化为无语义的数值编码，并剔除描述性元数据，导致模型无法利用领域专家日常依赖的上下文信息。该数据集通过保留原始文本语义与结构化元数据，构建了涵盖医疗、金融等领域的20个多样化表格数据集，为融合语义理解的异常检测算法提供了标准化评估框架。

当前挑战

表格异常检测领域长期面临语义信息流失的挑战，传统方法因忽略字段描述与业务逻辑而难以识别上下文相关异常。数据集构建过程中需平衡原始数据完整性与标准化需求，既要维护文本特征的语义丰富性，又需设计统一元数据规范以支持多模态算法验证。此外，跨领域数据集的异构性对特征对齐与评估一致性提出了更高要求。

常用场景

经典使用场景

在表格异常检测研究领域，ReTabAD基准数据集通过保留原始文本特征和丰富的元数据，为模型提供了语义上下文信息。该数据集支持传统机器学习、深度学习及大语言模型等多种方法的公平比较，尤其适用于探索上下文感知的异常检测算法。其经典使用场景包括在金融欺诈检测、医疗诊断异常识别等需要结合领域知识的任务中，验证模型对语义信息的利用能力。

实际应用

该数据集在工业实践中具有广泛的应用价值，特别是在需要结合领域知识的复杂场景中。例如在金融风控领域，可通过分析交易描述文本识别欺诈行为；在医疗诊断中，利用病历文本语义辅助检测罕见病例。实验证明，注入领域知识的大语言模型在ReTabAD上实现了9.5%的AUROC提升，验证了语义信息在实际应用中的关键作用。

衍生相关工作

基于ReTabAD基准已衍生出多项重要研究，特别是探索大语言模型在表格异常检测中的创新应用。这些工作通过零样本学习框架，将领域知识注入模型推理过程，显著提升了检测性能。同时，该数据集也推动了传统机器学习方法与深度学习模型的融合研究，为构建更鲁棒的上下文感知异常检测系统提供了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集