ReTabAD
收藏arXiv2025-10-02 更新2025-11-20 收录
下载链接:
https://hf-mirror.com/datasets/LGAI-DILab/ReTabAD
下载链接
链接失效反馈官方服务:
资源简介:
ReTabAD是一个用于表格异常检测的上下文感知基准,包含20个精心策划的表格数据集,这些数据集丰富了结构化的文本元数据。该基准旨在通过提供原始表格值和结构化元数据,以及为经典、深度学习和基于LLM的方法提供的现成算法实现,来促进上下文感知的表格异常检测研究。数据集的收集和注释过程确保了数据集的质量和实用性,为未来的研究提供了宝贵的资源。
ReTabAD is a context-aware benchmark for tabular anomaly detection, which comprises 20 carefully curated tabular datasets enriched with structured textual metadata. This benchmark is designed to advance research in context-aware tabular anomaly detection by providing raw tabular values and structured metadata, alongside off-the-shelf algorithm implementations for classical, deep learning, and LLM-based approaches. The dataset collection and annotation process ensures the quality and practicality of the datasets, serving as a valuable resource for future research.
提供机构:
LG AI Research, Seoul, South Korea; Sungkyunkwan University, Suwon, South Korea
创建时间:
2025-10-02
搜集汇总
数据集介绍

构建方式
在表格异常检测研究领域,语义上下文的缺失长期制约着模型的领域感知能力。ReTabAD通过系统化数据收集与标注流程构建了这一基准数据集,从ADBench等权威资源中筛选出20个具有明确异常定义的真实表格数据集,并追溯至原始数据源进行语义还原。构建过程中严格遵循数值特征原始尺度保留与分类特征文本值恢复两大原则,同时为每个数据集配套结构化元数据文件,涵盖数据集描述、字段级语义解释及标签定义等关键信息,通过人工验证确保异常定义与领域知识的一致性。
特点
作为首个支持上下文感知的表格异常检测基准,ReTabAD的突出特点在于其深度融合的语义体系。数据集不仅提供原始数值特征,更创新性地引入三层结构化元数据:数据集级描述阐明领域背景与采集方法,字段级描述包含测量单位与逻辑类型等语义信息,标签级描述则明确定义异常判据。这种设计使模型能够同时利用统计模式与领域先验,特别在医疗诊断等依赖专业知识的场景中,文本元数据可为算法提供关键推理依据。此外,基准涵盖医疗、金融、网络安全等多元领域,其类别不平衡比例严格模拟真实场景,确保了评估结果的生态效度。
使用方法
研究者可通过标准化流程使用ReTabAD开展上下文感知异常检测研究。基准提供完整的算法实现套件,涵盖传统方法、深度学习模型及基于大语言模型的零样本框架。使用时可首先加载数据集及其配套元数据,通过系统提示词整合领域知识、特征描述与正态统计量,构建具备语义感知能力的检测管道。对于零样本大语言模型方法,只需将表格序列化为包含特征名称与值的文本记录,结合结构化提示模板即可实现无需训练的异常评分。基准还支持超参数优化与重复实验验证,所有预处理代码与评估协议均已开源,确保研究可复现性。
背景与挑战
背景概述
ReTabAD数据集由LG AI Research与成均馆大学于2025年10月联合发布,旨在解决表格异常检测中语义上下文缺失的核心问题。该数据集通过整合20个涵盖医疗、金融、网络安全等领域的表格数据集,首次系统性地注入了结构化文本元数据,包括特征描述、领域知识和标注定义。这一创新填补了传统基准如DAMI Repository和ADBench仅关注数值特征而忽视语义信息的空白,为上下文感知的异常检测研究奠定了新范式。
当前挑战
ReTabAD面临的领域挑战在于如何有效利用文本语义提升异常检测的准确性与可解释性,尤其在特征含义模糊或领域依赖性强的场景中。构建过程中的挑战包括:需从原始数据源精确恢复分类特征的文本值以避免语义丢失;设计统一的结构化元数据格式以兼容多领域数据集;确保异常标注与领域知识的一致性,同时维持数据集的规模与质量平衡。
常用场景
经典使用场景
在表格异常检测研究领域,ReTabAD数据集通过恢复语义上下文填补了传统基准的关键空白。该数据集在金融欺诈检测、医疗诊断和网络安全监控等场景中被广泛用于评估上下文感知异常检测算法的性能。其精心构建的20个表格数据集配备了结构化文本元数据,使得研究人员能够系统分析语义信息对检测准确性的影响。特别是在处理混合类型特征时,语义上下文的引入显著提升了模型对领域特定异常模式的理解能力。
实际应用
在现实应用场景中,ReTabAD支撑的上下文感知异常检测系统已在多个关键领域展现价值。医疗诊断系统利用该数据集的语义元数据识别临床检测指标中的异常模式,如通过凝血酶原时间异常判断肝功能损伤。金融风控领域借助特征描述理解交易行为语义,提升欺诈交易识别准确率。工业设备监测则结合操作参数语义上下文,实现早期故障预警。这些应用证明语义信息的引入能显著提升系统在复杂场景下的适应性和决策透明度。
衍生相关工作
ReTabAD催生了系列上下文感知异常检测的创新研究。基于该数据集提出的零样本LLM框架建立了无需任务特定训练的强基线,推动了语义推理在异常检测中的应用。后续研究扩展了多模态语义融合方法,开发出结合统计特征与文本描述的混合模型。在可解释性方向,衍生工作利用特征归因分析验证语义上下文与异常决策的关联性。这些研究共同构成了语义增强异常检测的新范式,为领域自适应和少样本学习提供了重要参考。
以上内容由遇见数据集搜集并总结生成



