MDTA

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/nsp909/MDTA

下载链接

链接失效反馈

官方服务：

资源简介：

MDTA是一个用于检测AI生成文本的基准数据集，包含人类撰写和LLM生成的回答，涵盖五个领域（finance、medicine、open_qa、reddit_eli5、wiki_csai）、四种开源模型和三种采样温度。数据集扩展了HC3数据集，增加了现代模型覆盖、温度变化和有针对性的对抗增强。总共有24,322个问题对齐的提示（约642,000个文本样本，包括所有生成和对抗性响应）。每个问题包含人类答案、模型响应（四种模型在三种温度下的输出）和对抗性响应（三种变体，包括避免特定字母的改写）。数据集适用于训练和评估AI生成文本检测器，研究检测器对对抗性改写的鲁棒性，以及比较不同领域和采样温度下的模型输出分布。数据采用CC-BY-SA-4.0许可，要求使用时引用原始HC3数据集和MDTA论文。

MDTA is a benchmark dataset for detecting AI-generated text, containing human-written and LLM-generated responses, covering five domains (finance, medicine, open_qa, reddit_eli5, wiki_csai), four open-source models, and three sampling temperatures. The dataset extends the HC3 dataset by adding modern model coverage, temperature variations, and targeted adversarial enhancements. It includes a total of 24,322 question-aligned prompts (approximately 642,000 text samples, including all generated and adversarial responses). Each question contains a human answer, model responses (outputs from four models at three temperatures), and adversarial responses (three variants, including rewrites avoiding specific letters). The dataset is suitable for training and evaluating AI-generated text detectors, studying the robustness of detectors against adversarial rewrites, and comparing model output distributions across different domains and sampling temperatures. The data is licensed under CC-BY-SA-4.0 and requires citation of the original HC3 dataset and MDTA paper when used.

创建时间：

2026-05-01

原始信息汇总

MDTA 数据集概述

MDTA（Models, Domains, Temperatures, and Adversaries）是一个用于AI生成文本检测的基准测试数据集。它围绕人类撰写的答案与大型语言模型生成的答案进行配对，覆盖五个领域、四个开源模型和三种采样温度，并为每个模型生成的答案增加了三种对抗性改写版本。

数据集规模

24,322 个问题，每个问题均配有提示词。
总计约 642,000 个文本样本（包含所有生成的和对抗性的回答）。
问题和人类答案源自 HC3 数据集。

领域配置

MDTA 包含五个配置，每个配置对应一个领域：

配置名	来源	问题数
finance	金融问答	3,933
medicine	医疗问答	1,248
open_qa	开放领域问答	1,187
reddit_eli5	Reddit ELI5	17,112
wiki_csai	维基百科 (计算机科学 / 人工智能)	842

总计 24,322 个问题。数据集不提供固定的训练/测试集划分，评估遵循基于种子的协议。

数据加载

可使用 datasets 库加载特定配置：

python from datasets import load_dataset

finance = load_dataset("nsp909/MDTA", "finance", split="train") print(finance[0])

或直接加载单个文件：

python ds = load_dataset("json", data_files="reddit_eli5.jsonl")

Hugging Face 将所有数据暴露在名为 train 的单一分割中，基准测试分割在运行时根据随机种子动态构建。

数据行结构

每个 JSON 行包含一个问题及其所有相关回答：

question_index (整数): 领域内的稳定 ID。
question (字符串): 提示词。
human_answers (字符串列表): 一个或多个人类撰写的参考答案。
model_responses (字典): 标准 LLM 回答，按模型组织。每个模型对应三个采样温度 (temp_0.2, temp_0.5, temp_0.8)。
adv_responses (字典): 对抗性改写的 LLM 回答，按模型组织。每个模型包含：
- adv_letter_x (字符串): 选择的需避免的目标字母。
- adv_letters_xy (两个字符串的列表): 需避免的两个目标字母。
- adv_plain (字符串): 普通改写基线。
- adv_no_letter_x (字符串): 避免 adv_letter_x 的改写版本。
- adv_no_letters_xy (字符串): 避免 adv_letters_xy 中两个字母的改写版本。

覆盖的模型

llama-3.1-8b
gemma-3-12b
qwen2.5-vl-7b
ministral-8b

基准测试协议

MDTA 采用小校准/大评估的协议，匹配训练时无需训练的检测器在实际部署中的方式。标准的有监督划分会在此数据集上导致检测器AUROC饱和而失去区分能力，因此不采用。

样本构建

在每个领域内，将每行数据扩展为（文本，标签）样本列表：

human_answers 中的每个条目：一个样本，label = 0 (人类)。
model_responses 中的每个 (model, temp)：一个样本，label = 1 (AI)。
adv_responses 中的每个 (model, variant)（其中 variant ∈ {adv_plain, adv_no_letter_x, adv_no_letters_xy}）：一个样本，label = 1 (AI)，用于对抗性鲁棒性评估。

每种子训练/测试集划分

选择 5 个固定的随机种子 并用于整个评估。对于每个种子和每个训练集大小 T ∈ {100, 250, 500, 1000}：

使用该种子分别打乱人类样本和 AI 样本。
从每个类别中取前 T/2 个样本作为 训练集 (校准集)，保持平衡。
测试集包含所有剩余样本：该领域内所有剩余的人类和 AI 样本。

报告 5 个种子的平均值和标准差。

两个评估轨道

轨道 1 - 标准检测：AI 样本来自 model_responses (4 个模型 × 3 种温度的纯净 LLM 输出)。
轨道 2 - 对抗性鲁棒性：AI 样本来自 adv_responses。分别评估三种对抗性条件 (adv_plain, adv_no_letter_x, adv_no_letters_xy)。对于两种需避免字母的条件，只使用模型生成了非错误回答的行。

基线结果示例 (T=100, AUROC)

轨道 1 - 标准检测 (AUROC)

方法	金融	医疗	开放问答	Reddit ELI5	维基百科 CSAI	平均
DNA	0.958	0.996	0.812	0.971	0.992	0.946
最佳 LD-DNA	0.974	0.998	0.856	0.982	0.992	0.960

轨道 2 - 对抗性鲁棒性 (AUROC, T=100, adv_no_letter_x)

方法	金融	医疗	开放问答	Reddit ELI5	维基百科 CSAI	平均
DNA	0.946	0.980	0.756	0.877	0.964	0.905
最佳 LD-DNA	0.961	0.979	0.761	0.886	0.968	0.911

数据收集

源语料库: 问题和人类答案直接来自 HC3 数据集。MDTA 不重新分发 HC3 中的 ChatGPT 答案。
模型回答: 使用四个中等规模的开源权重 LLM 生成，每个模型在三种温度下采样（0.2, 0.5, 0.8）。
对抗性回答: 对每个纯净模型输出，使用原模型生成三种对抗性变体：普通改写、避免单个字母的改写、避免两个字母的改写。需避免的字母是随机选取的。

预期用途

训练和评估 AI 生成文本检测器。
研究检测器对对抗性改写的鲁棒性，包括限制词汇的改写（避免特定字母）。
比较不同领域和采样温度下的模型输出分布。

非预期用途

此数据集不用于评估事实准确性。模型回答未经事实核查，人类答案也未经验证。

许可协议

以 CC-BY-SA-4.0 许可协议发布，与上游 HC3 数据集一致。

引用

bibtex @misc{narayanasamy2026perplexitycharacterdistributionsignatures, title={Beyond Perplexity: Character Distribution Signatures and the MDTA Benchmark for AI Text Detection}, author={Narayanasamy, Priyadarshan and Agrawal, Swastik and Faber, Klint and Alam, Fardina Fathmiul}, year={2026}, eprint={2605.01647}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.01647} }

搜集汇总

数据集介绍

构建方式

MDTA（Models, Domains, Temperatures, and Adversaries）基准数据集旨在系统性地评估AI生成文本检测器的性能。其构建过程始于从HC3语料库中提取涵盖金融、医学、开放域问答、Reddit ELI5及维基百科（计算机科学/人工智能）五个领域的24,322个问题，并保留相应的人类撰写的参考答案。随后，研究者利用四种中等规模的开源大型语言模型（Llama-3.1-8B、Gemma-3-12B、Qwen2.5-VL-7B及Ministral-8B），在三个不同的采样温度（0.2、0.5、0.8）下为每个问题生成了回答，由此构成了包含约642,000个文本样本的庞大基础语料库。在此基础上，为了模拟现实世界中可能遇到的对抗性攻击，研究者进一步针对每个模型的原始输出，通过原模型自身生成了三种对抗性变体：一个普通改写版本，以及两个受限于避免单一字母或两个字母的“缺笔”式改写版本，从而系统地引入了字符级统计分布的刻意扰动。

使用方法

使用MDTA数据集时，研究者可通过HuggingFace Datasets库轻松加载各领域子集，例如`load_dataset("nsp909/MDTA", "finance", split="train")`。每个数据样本包含问题、人类回答、四种模型在三种温度下的原始输出以及对应的对抗性改写。评测过程需遵循其预设的两条评估轨道：标准检测任务使用干净模型输出，对抗性鲁棒性任务则选用对抗性改写样本。根据协议，使用者应先从各领域数据中独立地以固定随机种子生成平衡的校准集（每类T/2个样本，T∈{100,250,500,1000}），并将剩余所有样本作为测试集。研究者还需选用5个固定种子重复这一过程，最终报告所有指标在5次运行上的均值和标准差。这一标准化流程确保了不同检测方法间比较的公平性与科学性。

背景与挑战

背景概述

MDTA（Models, Domains, Temperatures, and Adversaries）基准数据集由Priyadarshan Narayanasamy等人于2026年创建，旨在系统性地评估和推动AI生成文本检测技术的发展。该数据集以HC3语料库为基础，涵盖金融、医学、开放问答、Reddit ELI5和维基百科计算机科学五个专业领域，汇集了来自Llama-3.1、Gemma-3等四种主流开源语言模型在三种采样温度下的生成文本，并引入对抗性改写样本。MDTA的核心研究问题在于构建一个多维度、具有挑战性的基准，以全面衡量检测器在跨领域、跨模型、跨温度及对抗扰动条件下的鲁棒性。作为首个系统整合温度变化与对抗性攻击的检测基准，MDTA为AI文本检测领域提供了标准化的评估协议与开放的研究平台，显著推动了该领域的实证进展。

当前挑战

MDTA着力应对的核心挑战在于AI生成文本检测领域面临的复杂实际问题：检测器需在跨领域（如金融与问答）、跨模型（不同架构与规模）及不同文本生成温度下保持稳定的鉴别能力。更为严峻的是，面对三种对抗性改写（普通释义、单字母规避及双字母规避），当前检测方法的性能显著下降，尤其在双字母约束下，检测AUROC平均下降约6%，凸显了对抗鲁棒性这一开放难题。在数据集构建层面，挑战同样严峻：模型不完全遵守字母规避指令，部分输出仍含禁用字符，导致标注噪声；五个领域的人回答长度差异悬殊（187至1302词元），增加了跨域泛化难度。此外，MDTA采用的小样本校准/大规模评估协议不同于传统监督划分，需精心设计随机种子与平衡采样策略，以确保公平复现。

常用场景

经典使用场景

MDTA（Model-Domain-Temperature-Adversary）基准数据集专为AI生成文本检测任务而设计，其经典使用场景在于构建和评估能够区分人类撰写文本与大型语言模型生成内容的检测系统。该数据集跨越金融、医学、开放问答、Reddit ELI5及维基百科计算机科学/人工智能五个专业领域，覆盖Llama-3.1-8B、Gemma-3-12B、Qwen2.5-VL-7B和Ministral-8B四种主流开源模型，并引入0.2、0.5、0.8三种采样温度以模拟模型输出在不同随机性水平下的分布特征。尤为独特的是，MDTA为每个模型输出配对了三种对抗性改写版本，包括无约束释义、单字母规避和双字母规避改写，从而构建了一个全面且具有挑战性的检测基准，使得研究者能够在现实、复杂且充满对抗性的环境中精准评估检测算法的真实性能。

解决学术问题

MDTA数据集针对AI生成文本检测领域长期存在的若干关键学术问题提供了系统性的解决方案。首要挑战在于现有基准（如HC3、M4）领域覆盖狭窄、模型陈旧且未纳入温度多样性与对抗性扰动，导致检测器的泛化能力和鲁棒性评估失准。MDTA通过构建多领域、多模型、多温度及对抗性改写的综合评测框架，使得研究者能够揭示检测方法在不同内容体裁、模型生成风格变化及表面字符统计偏移下的性能退化规律。该数据集还专门设计了一个小校准/大评估的评测协议（small-calibration/large-evaluation），模拟检测系统在实际部署中仅有少量标注样本可用但需要在海量未标注数据上进行判别的场景，从而推动了对训练无关检测方法阈值校准与泛化能力的深入理解。此外，通过提供字母分布偏离度（LD-Score）这一新颖特征与基线方法的对比，MDTA阐明了字符级统计信息与大语言模型概率信号在检测任务中正交互补的关系，为构建更为鲁棒且无需训练的检测系统奠定了理论基石。

实际应用

MDTA数据集在现实世界中的实际应用场景广泛且具有深远影响，主要集中在需要甄别信息真伪与来源的各类系统中。在教育领域，该基准可用于开发自动检测学生提交作业或论文中是否存在AI生成内容的工具，助力维护学术诚信与公平评价。在新闻媒体与内容审核场景中，基于MDTA训练的检测器能够帮助平台识别并以透明方式标注AI合成的新闻稿件、评论或社交媒体帖子，从而遏制虚假信息与深度伪造内容的扩散。在安全合规领域，企业可以利用MDTA评估的方法检测内部文档、客户沟通记录或调查报告中是否有未声明的AI生成痕迹，满足信息披露与监管审计要求。更为重要的是，MDTA中包含的对抗性改写案例——尤其是字母规避改写——模拟了恶意用户为绕过检测而刻意对AI输出进行微调的真实攻击行为，因此该基准对提升检测系统在实际对抗环境中的可靠性和安全性具有不可替代的实用价值。

数据集最近研究