MAGA-cn
收藏数据集概述:MAGA-cn
基本信息
- 数据集名称:MAGA-cn
- 许可证:MIT
- 主要语言:中文 (zh)
- 任务类别:文本分类 (text-classification)
- 数据规模:100K < n < 1M
- 官方名称:MAGA-Bench: Machine-Augment-Generated Text via Alignment Detection Benchmark
数据集描述
MAGA-cn 是一个用于推进机器生成文本检测器泛化性研究的综合性数据集,通过对齐增强构建。它包含近百万条生成文本,覆盖12个生成器、20个领域(10个英文 + 10个中文)、4种对齐方法以及多样化的解码策略。该数据集是测试检测器鲁棒性和增强微调检测器泛化能力的宝贵资源。
数据集配置与文件结构
数据集包含6个配置,每个配置包含训练集和验证集。
配置列表
- MGB-cn (默认配置)
- 训练集文件:
train/MGB-cn_train.jsonl - 验证集文件:
val/MGB-cn_val.jsonl
- 训练集文件:
- MAGA-cn
- 训练集文件:
train/MAGA-cn_train.jsonl - 验证集文件:
val/MAGA-cn_val.jsonl
- 训练集文件:
- MAGA-cn-extra-BPO
- 训练集文件:
extra/train/MAGA-cn_extra_train_BPO.jsonl - 验证集文件:
extra/val/MAGA-cn_extra_val_BPO.jsonl
- 训练集文件:
- MAGA-cn-extra-roleplaying
- 训练集文件:
extra/train/MAGA-cn_extra_train_role_playing.jsonl - 验证集文件:
extra/val/MAGA-cn_extra_val_role_playing.jsonl
- 训练集文件:
- MAGA-cn-extra-self-refine
- 训练集文件:
extra/train/MAGA-cn_extra_train_self_refine.jsonl - 验证集文件:
extra/val/MAGA-cn_extra_val_self_refine.jsonl
- 训练集文件:
- MAGA-cn-extra-RLDF-CMD
- 训练集文件:
extra/train/MAGA-cn_extra_train_RLDF_CMD.jsonl - 验证集文件:
extra/val/MAGA-cn_extra_val_RLDF_CMD.jsonl
- 训练集文件:
结构说明
MAGA-cn 数据集整体由两个子集构成:MGB-cn(无对齐的基线数据)和 MAGA-cn(融合了4种对齐方法的完整数据)。此外,还提供了4个独立的 MAGA-cn-extra-<对齐方法> 配置,分别对应每种对齐方法。每个配置均进一步划分为训练和验证两个子分割。为了便于横向比较,每个分割所使用的人类源文本是相同的。
数据字段
每个数据样本包含以下字段:
id:唯一标识文本内容的 uuid4。title:提示词中使用的文章标题。text:文本内容(人类撰写文本或机器生成文本)。domain:提示词/文本所属的领域类别(例如 Reddit)。human_source_id:人类撰写源文本的 uuid4。prompt_id:唯一标识所用提示词的 uuid4。system_prompt:生成时使用的系统提示词。user_prompt:生成时使用的用户提示词。model:生成文本的大语言模型。temperature,top_p,top_k,repetition_penalty:文本生成的解码参数。
标签说明:数据集中未直接包含 label 列。进行文本分类时,需根据 model 列手动添加标签:将“human”标记为0,将所有其他值标记为1。
加载方式
使用 datasets 库加载数据集:
python
from datasets import load_dataset
maga = load_dataset("anyangsong/MAGA-cn")
相关资源
- 项目主页:https://github.com/s1012480564/MAGA
- 论文地址:https://www.arxiv.org/abs/2601.04633
- 完整MAGA数据集(英文版):https://huggingface.co/datasets/anyangsong/MAGA
- 人类源文本数据集:https://huggingface.co/datasets/anyangsong/MAGA-human-source
引用信息
如果使用本数据集,请引用: latex @misc{song2026maga, title={MAGA-Bench: Machine-Augment-Generated Text via Alignment Detection Benchmark}, author={Anyang Song and Ying Cheng and Yiqian Xu and Rui Feng}, year={2026}, eprint={2601.04633}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.04633}, }




