Text-ADBench

Name: Text-ADBench
Creator: 香港中文大学（深圳）
Published: 2025-07-16 22:47:41
License: 暂无描述

arXiv2025-07-16 更新2025-07-18 收录

下载链接：

https://github.com/jicongfan/Text-Anomaly-Detection-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Text-ADBench是一个基于大型语言模型（LLMs）嵌入的文本异常检测基准，涵盖了新闻、社交媒体和科学出版物等多个领域的文本数据集。该数据集包括早期语言模型（如GloVe、BERT）、多个LLMs（如LLaMa-2、LLama-3、Mistral、OpenAI的小型、ada和大型模型）的嵌入，并采用了三种池化策略（均值、序列结束标记和加权均值）。数据集包含八个真实世界的文本数据集，用于评估文本异常检测方法的性能。

Text-ADBench is a text anomaly detection benchmark based on embeddings of large language models (LLMs). It covers text datasets from multiple domains including news, social media, and scientific publications. This dataset includes embeddings from early language models such as GloVe and BERT, as well as multiple LLMs like LLaMa-2, LLaMa-3, Mistral, and OpenAI's small, ada, and large models. Three pooling strategies are adopted: mean pooling, sequence end token pooling, and weighted mean pooling. The benchmark contains eight real-world text datasets for evaluating the performance of text anomaly detection methods.

提供机构：

香港中文大学（深圳）

创建时间：

2025-07-16

原始信息汇总

Text-ADBench 数据集概述

数据集简介

名称：Text-ADBench (Text Anomaly Detection Benchmark based on LLMs Embedding)
任务：文本异常检测
应用领域：欺诈检测、错误信息识别、垃圾邮件检测、内容审核等
论文链接：Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding

数据集特点

嵌入模型多样性：
- 早期语言模型（GloVe, BERT）
- 多种大型语言模型（LLaMa-2, LLama-3, Mistral, OpenAI (small, ada, large)）
多领域文本数据：
- 新闻、社交媒体、科学出版物等
评估指标：
- AUROC、AUPRC

数据集来源

20 Newsgroups: http://qwone.com/~jason/20Newsgroups/
Reuters: https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/reuters.zi
IMDB: http://ai.stanford.edu/~amaas/data/sentiment/
SST-2: https://huggingface.co/datasets/stanfordnlp/sst2
SMS Spam: https://huggingface.co/datasets/ucirvine/sms_spam
Enron Emails: https://huggingface.co/datasets/Hellisotherpeople/enron_emails_parsed
Web of Science: https://huggingface.co/datasets/river-martin/web-of-science-with-label-texts
DBpedia: https://huggingface.co/datasets/fancyzhx/dbpedia_14

使用说明

环境要求：
- Python 3.8
- 安装依赖：pip install requirements.txt
数据下载：
- 文本数据和文本嵌入可从 Text-ADBench 下载
配置：
- 修改 configs.py 文件，设置有效的 DATA_DIR 和 EMBEDDING_DIR
功能模块：
- 文本嵌入：./embedding/
- 异常检测：./anomaly_detection/
- 低秩预测：./low_rank_prediction/

引用

本工作： bibtex @misc{xiao2025textadbenchtextanomalydetection, title={Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding}, author={Feng Xiao and Jicong Fan}, year={2025}, eprint={2507.12295}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.12295}, }
嵌入模型：
- Llama-2-7B-chat
- Mistral-7B-Instruct-v0.2
- Llama-3-8B-Instruct
- LLM2Vec

搜集汇总

数据集介绍

构建方式

Text-ADBench的构建采用两阶段框架，首先利用多样化预训练语言模型生成文本嵌入向量，涵盖早期模型（GloVe、BERT）与大语言模型（LLaMA-2/3、Mistral、OpenAI系列），并集成三种池化策略（均值、句尾标记、加权均值）以聚合词元级表征。随后基于八类跨领域文本数据集（新闻、影评、学术摘要等）构建异常检测任务，通过组合12种浅层与深度学习检测算法及2种专用文本异常检测方法，形成超过330种配置的全面评估体系。

特点

该数据集的核心特征体现在多维度比较框架：覆盖33种嵌入与池化策略组合，引入低秩性能矩阵揭示算法关联性，支持基于历史数据的快速模型评估预测。嵌入质量被证实为异常检测效能的关键决定因素，且实验表明基于大语言模型的嵌入能使传统浅层算法（如KNN、隔离森林）达到甚至超越深度学习方法的性能。开源所有嵌入向量与代码确保了可复现性及下游任务扩展性。

使用方法

研究者可通过加载预计算的嵌入向量直接进行异常检测算法评估，或利用其低秩特性实现少量观测值预测全矩阵性能。基准工具包提供统一接口支持新嵌入模型与检测算法的集成测试，嵌入向量可独立用于其他NLP任务。实验配置遵循严格的数据划分与五次重复验证，使用AUROC与AUPRC双指标确保评估鲁棒性。

背景与挑战

背景概述

Text-ADBench由香港中文大学（深圳）的冯晓和范继聪于2025年提出，是首个基于大语言模型嵌入的文本异常检测综合基准。该数据集针对自然语言处理中异常检测缺乏标准化评估框架的问题，整合了早期语言模型（如GloVe、BERT）与多种大语言模型（包括LLaMA系列、Mistral和OpenAI嵌入模型），覆盖新闻、社交媒体、学术论文等多领域文本数据。通过系统评估嵌入质量与异常检测算法的交互效应，该研究揭示了嵌入质量对检测效能的决定性作用，并为领域提供了可复现的实验框架与开源工具。

当前挑战

文本异常检测需应对语义异构性、上下文依赖及异常模式多样性等核心挑战，例如细粒度的语义偏离或语法非常规性难以被传统方法捕获。构建过程中面临多维度难题：需协调不同嵌入模型（从静态词向量到动态上下文编码）与聚合策略的兼容性，设计跨域文本数据的统一异常标注范式，并解决大语言模型高维嵌入与轻量检测算法（如KNN、隔离森林）的协同优化问题。同时，需在计算资源约束下实现大规模嵌入生成与检测流程的标准化。

常用场景

经典使用场景

在自然语言处理领域，文本异常检测是识别与正常模式显著偏离的文本实例的关键任务。Text-ADBench作为基于大语言模型嵌入的综合性基准，其经典使用场景涵盖了对多种嵌入模型与异常检测算法的系统评估。该数据集通过整合早期语言模型（如GloVe、BERT）与多种大语言模型（如LLaMA系列、Mistral、OpenAI嵌入模型），结合均值池化、序列结束符池化及加权均值池化等策略，构建了丰富的两阶段文本异常检测流程。研究者在多领域文本数据（如新闻、社交媒体、学术论文）上评估这些组合，以全面比较不同方法在语义异常、语法异常及上下文异常检测中的表现。

衍生相关工作

Text-ADBench催生了多个重要研究方向，包括基于低秩矩阵补全的快速评估框架、嵌入池化策略的优化研究以及跨模型性能预测模型。其开源资源被广泛应用于后续工作，如适配多语言异常检测的扩展基准、结合领域自适应技术的嵌入优化方法，以及针对实时流式文本的轻量级检测算法。这些衍生工作进一步推动了CVDD、DATE等专业文本异常检测方法与大语言模型嵌入的融合创新，形成了以嵌入质量为核心的新研究范式。

数据集最近研究