MDTA
收藏MDTA 数据集概述
MDTA(Models, Domains, Temperatures, and Adversaries)是一个用于AI生成文本检测的基准测试数据集。它围绕人类撰写的答案与大型语言模型生成的答案进行配对,覆盖五个领域、四个开源模型和三种采样温度,并为每个模型生成的答案增加了三种对抗性改写版本。
数据集规模
- 24,322 个问题,每个问题均配有提示词。
- 总计约 642,000 个文本样本(包含所有生成的和对抗性的回答)。
- 问题和人类答案源自 HC3 数据集。
领域配置
MDTA 包含五个配置,每个配置对应一个领域:
| 配置名 | 来源 | 问题数 |
|---|---|---|
| finance | 金融问答 | 3,933 |
| medicine | 医疗问答 | 1,248 |
| open_qa | 开放领域问答 | 1,187 |
| reddit_eli5 | Reddit ELI5 | 17,112 |
| wiki_csai | 维基百科 (计算机科学 / 人工智能) | 842 |
总计 24,322 个问题。数据集不提供固定的训练/测试集划分,评估遵循基于种子的协议。
数据加载
可使用 datasets 库加载特定配置:
python from datasets import load_dataset
finance = load_dataset("nsp909/MDTA", "finance", split="train") print(finance[0])
或直接加载单个文件:
python ds = load_dataset("json", data_files="reddit_eli5.jsonl")
Hugging Face 将所有数据暴露在名为 train 的单一分割中,基准测试分割在运行时根据随机种子动态构建。
数据行结构
每个 JSON 行包含一个问题及其所有相关回答:
question_index(整数): 领域内的稳定 ID。question(字符串): 提示词。human_answers(字符串列表): 一个或多个人类撰写的参考答案。model_responses(字典): 标准 LLM 回答,按模型组织。每个模型对应三个采样温度 (temp_0.2,temp_0.5,temp_0.8)。adv_responses(字典): 对抗性改写的 LLM 回答,按模型组织。每个模型包含:adv_letter_x(字符串): 选择的需避免的目标字母。adv_letters_xy(两个字符串的列表): 需避免的两个目标字母。adv_plain(字符串): 普通改写基线。adv_no_letter_x(字符串): 避免adv_letter_x的改写版本。adv_no_letters_xy(字符串): 避免adv_letters_xy中两个字母的改写版本。
覆盖的模型
llama-3.1-8bgemma-3-12bqwen2.5-vl-7bministral-8b
基准测试协议
MDTA 采用小校准/大评估的协议,匹配训练时无需训练的检测器在实际部署中的方式。标准的有监督划分会在此数据集上导致检测器AUROC饱和而失去区分能力,因此不采用。
样本构建
在每个领域内,将每行数据扩展为(文本,标签)样本列表:
human_answers中的每个条目:一个样本,label = 0(人类)。model_responses中的每个(model, temp):一个样本,label = 1(AI)。adv_responses中的每个(model, variant)(其中variant ∈ {adv_plain, adv_no_letter_x, adv_no_letters_xy}):一个样本,label = 1(AI),用于对抗性鲁棒性评估。
每种子训练/测试集划分
选择 5 个固定的随机种子 并用于整个评估。对于每个种子和每个训练集大小 T ∈ {100, 250, 500, 1000}:
- 使用该种子分别打乱人类样本和 AI 样本。
- 从每个类别中取前
T/2个样本作为 训练集 (校准集),保持平衡。 - 测试集包含所有剩余样本:该领域内所有剩余的人类和 AI 样本。
报告 5 个种子的平均值和标准差。
两个评估轨道
- 轨道 1 - 标准检测:AI 样本来自
model_responses(4 个模型 × 3 种温度的纯净 LLM 输出)。 - 轨道 2 - 对抗性鲁棒性:AI 样本来自
adv_responses。分别评估三种对抗性条件 (adv_plain,adv_no_letter_x,adv_no_letters_xy)。对于两种需避免字母的条件,只使用模型生成了非错误回答的行。
基线结果示例 (T=100, AUROC)
轨道 1 - 标准检测 (AUROC)
| 方法 | 金融 | 医疗 | 开放问答 | Reddit ELI5 | 维基百科 CSAI | 平均 |
|---|---|---|---|---|---|---|
| DNA | 0.958 | 0.996 | 0.812 | 0.971 | 0.992 | 0.946 |
| 最佳 LD-DNA | 0.974 | 0.998 | 0.856 | 0.982 | 0.992 | 0.960 |
轨道 2 - 对抗性鲁棒性 (AUROC, T=100, adv_no_letter_x)
| 方法 | 金融 | 医疗 | 开放问答 | Reddit ELI5 | 维基百科 CSAI | 平均 |
|---|---|---|---|---|---|---|
| DNA | 0.946 | 0.980 | 0.756 | 0.877 | 0.964 | 0.905 |
| 最佳 LD-DNA | 0.961 | 0.979 | 0.761 | 0.886 | 0.968 | 0.911 |
数据收集
- 源语料库: 问题和人类答案直接来自 HC3 数据集。MDTA 不重新分发 HC3 中的 ChatGPT 答案。
- 模型回答: 使用四个中等规模的开源权重 LLM 生成,每个模型在三种温度下采样(0.2, 0.5, 0.8)。
- 对抗性回答: 对每个纯净模型输出,使用原模型生成三种对抗性变体:普通改写、避免单个字母的改写、避免两个字母的改写。需避免的字母是随机选取的。
预期用途
- 训练和评估 AI 生成文本检测器。
- 研究检测器对对抗性改写的鲁棒性,包括限制词汇的改写(避免特定字母)。
- 比较不同领域和采样温度下的模型输出分布。
非预期用途
此数据集不用于评估事实准确性。模型回答未经事实核查,人类答案也未经验证。
许可协议
以 CC-BY-SA-4.0 许可协议发布,与上游 HC3 数据集一致。
引用
bibtex @misc{narayanasamy2026perplexitycharacterdistributionsignatures, title={Beyond Perplexity: Character Distribution Signatures and the MDTA Benchmark for AI Text Detection}, author={Narayanasamy, Priyadarshan and Agrawal, Swastik and Faber, Klint and Alam, Fardina Fathmiul}, year={2026}, eprint={2605.01647}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.01647} }




