five

MAGA

收藏
Hugging Face2026-01-19 更新2026-01-20 收录
下载链接:
https://huggingface.co/datasets/anyangsong/MAGA
下载链接
链接失效反馈
官方服务:
资源简介:
MAGA是一个全面的数据集,旨在通过对齐增强推进机器生成文本检测器的泛化研究。它包含近100万条生成文本,涵盖12个生成器、20个领域(10个英文和10个中文)、4种对齐方法和多样化的解码策略。该数据集是测试检测器鲁棒性和提升微调检测器泛化能力的宝贵资源。
创建时间:
2026-01-13
原始信息汇总

数据集概述:MAGA

数据集基本信息

  • 数据集名称:MAGA (Machine-Augment-Generated Text via Alignment Detection Benchmark)
  • 发布者/维护者:anyangsong
  • 许可证:MIT
  • 主要语言:英语 (en)
  • 任务类别:文本分类 (text-classification)
  • 数据规模:100K < n < 1M (近一百万条生成文本)

数据集描述与目的

MAGA 是一个通过对齐增强构建的综合性数据集,旨在推进机器生成文本检测器的泛化研究。它包含近一百万条生成文本,覆盖12个生成器、20个领域(10个英文领域和10个中文领域)、4种对齐方法以及多样化的解码策略。该数据集是测试检测器鲁棒性和增强微调检测器泛化能力的宝贵资源。

数据集结构与配置

数据集包含多个配置(config),每个配置对应不同的数据子集,并划分为训练集(train)和验证集(validation)。

可用配置

  1. MGB (默认配置)
    • 数据文件:
      • train/MGB_train.jsonl
      • val/MGB_val.jsonl
  2. MAGA
    • 数据文件:
      • train/MAGA_train.jsonl
      • val/MAGA_val.jsonl
  3. MAGA-extra-BPO
    • 数据文件:
      • extra/train/MAGA_extra_train_BPO.jsonl
      • extra/val/MAGA_extra_val_BPO.jsonl
  4. MAGA-extra-roleplaying
    • 数据文件:
      • extra/train/MAGA_extra_train_role_playing.jsonl
      • extra/val/MAGA_extra_val_role_playing.jsonl
  5. MAGA-extra-self-refine
    • 数据文件:
      • extra/train/MAGA_extra_train_self_refine.jsonl
      • extra/val/MAGA_extra_val_self_refine.jsonl
  6. MAGA-extra-RLDF-CMD
    • 数据文件:
      • extra/train/MAGA_extra_train_RLDF_CMD.jsonl
      • extra/val/MAGA_extra_val_RLDF_CMD.jsonl

完整数据集构成说明

完整的 MAGA 数据集由两个子集(对应两个 Hugging Face 仓库)构成:

  • MAGA (英文版本):即本仓库。
  • MAGA-cn (中文版本):位于 https://huggingface.co/datasets/anyangsong/MAGA-cn。

每个子集都包含 6 种划分(对应上述6个配置):

  • MGB:未经对齐的基线数据。
  • MAGA:融合了全部4种对齐方法的完整MAGA数据。
  • MAGA-extra-<alignment method>:四种单独的对齐方法数据(BPO, roleplaying, self-refine, RLDF-CMD)。

重要提示:为了进行横向比较,每个划分所使用的人类源文本是相同的。

数据字段说明

每条数据包含以下字段:

  • id:唯一标识文本内容的 uuid4。
  • title:提示词中使用的文章标题。
  • text:文本内容(人类撰写文本或机器生成文本)。
  • domain:提示词/文本所属的领域类别(例如 Reddit)。
  • human_source_id:人类撰写源文本的 uuid4。
  • prompt_id:唯一标识所用提示词的 uuid4。
  • system_prompt:生成时使用的系统提示词。
  • user_prompt:生成时使用的用户提示词。
  • model:生成文本的大型语言模型。
  • temperature, top_p, top_k, repetition_penalty:文本生成的解码参数。

标签列说明:数据集中未直接包含 label 列。进行文本分类时,需根据 model 列手动添加标签:将 “human” 标记为 0,将所有其他值标记为 1。

相关资源链接

  • 论文:https://www.arxiv.org/abs/2601.04633
  • GitHub 仓库:https://github.com/s1012480564/MAGA
  • 中文版本数据集:https://huggingface.co/datasets/anyangsong/MAGA-cn
  • 角色扮演扩展数据集:https://huggingface.co/datasets/anyangsong/MAGA-ROLE-80
  • 人类源文本数据集:https://huggingface.co/datasets/anyangsong/MAGA-human-source
  • 预训练检测器模型:https://huggingface.co/anyangsong/MGT-Detector-RB-MAGA
  • 外部泛化测试数据集
    • https://huggingface.co/datasets/anyangsong/SemEval2024-Task8-SubtaskA
    • https://huggingface.co/datasets/anyangsong/COLING2025-MGT-Detection-Task1

加载方式

使用 datasets 库加载数据集: python from datasets import load_dataset maga = load_dataset("anyangsong/MAGA")

引用信息

如果使用本数据集,请引用: latex @misc{song2026maga, title={MAGA-Bench: Machine-Augment-Generated Text via Alignment Detection Benchmark}, author={Anyang Song and Ying Cheng and Yiqian Xu and Rui Feng}, year={2026}, eprint={2601.04633}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.04633}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在机器生成文本检测领域,MAGA数据集的构建采用了对齐增强方法,旨在提升检测器的泛化能力。该数据集通过整合12种生成模型、覆盖20个不同领域,并融合了四种对齐技术,系统性地生成了近百万条文本样本。构建过程中,研究者确保了各子集使用相同的人类源文本,以支持跨切面比较,同时针对不同对齐方法设计了独立的训练与验证划分,为检测算法的鲁棒性评估奠定了坚实基础。
使用方法
使用MAGA数据集时,可通过Hugging Face的datasets库直接加载,具体操作涉及安装相应库并调用load_dataset函数。数据加载后,用户需依据模型字段手动添加标签列,将人类文本标记为0,机器生成文本标记为1,以适配文本分类任务。数据集提供了清晰的训练与验证划分,支持研究者针对不同对齐方法进行独立实验,或整合全部数据以全面评估检测模型的性能与泛化能力。
背景与挑战
背景概述
在人工智能生成内容技术迅猛发展的背景下,机器生成文本的检测成为自然语言处理领域的关键研究议题。MAGA数据集由研究团队于2026年构建,旨在通过对齐增强方法,为机器生成文本检测器的泛化研究提供全面基准。该数据集汇集了近百万条文本样本,涵盖12种生成模型、20个领域以及多种对齐方法与解码策略,其核心研究问题聚焦于提升检测模型在面对多样化、高质量生成文本时的鲁棒性与泛化能力。作为一项开源资源,MAGA不仅推动了文本检测技术的进步,也为相关领域的算法评估与比较奠定了重要基础。
当前挑战
MAGA数据集致力于应对机器生成文本检测领域的两大核心挑战:其一,随着大型语言模型生成质量的不断提升,生成文本与人类撰写的文本在风格与内容上日益趋同,使得传统检测方法面临严峻的泛化能力考验;其二,在数据集构建过程中,研究团队需协调多种对齐方法、跨语言领域以及复杂的解码参数,确保数据分布的多样性与平衡性,同时维持源人类文本的一致性以支持有效的跨截面比较,这些因素共同构成了数据采集与整合的技术难点。
常用场景
经典使用场景
在机器生成文本检测领域,MAGA数据集为评估和提升检测器的泛化能力提供了标准化的测试平台。该数据集通过集成多种对齐方法和解码策略,覆盖了广泛的生成模型与文本领域,使得研究者能够在统一框架下系统性地验证检测算法对于不同来源生成文本的识别效果,从而推动检测技术向更稳健、更通用的方向发展。
解决学术问题
MAGA数据集主要应对机器生成文本检测中泛化能力不足的核心挑战。传统检测器往往在特定模型或领域上表现良好,但面对新兴生成模型或跨领域文本时性能显著下降。该数据集通过引入多样化的对齐增强数据,为研究检测器的跨模型、跨领域鲁棒性提供了丰富资源,有助于揭示检测机制的本质,促进更普适的检测理论发展。
实际应用
在实际应用中,MAGA数据集能够支持构建高可靠性的AI生成内容识别系统。这类系统对于维护学术诚信、打击虚假信息以及保障在线内容平台的信息安全至关重要。通过利用该数据集训练的检测模型,可以更准确地甄别由各类大语言模型生成的文本,为教育、新闻、社交媒体等行业提供有效的技术保障。
数据集最近研究
最新研究方向
在人工智能生成文本检测领域,随着大型语言模型生成内容的多样性与复杂性日益提升,传统检测器面临泛化能力不足的挑战。MAGA数据集通过整合多种对齐方法、解码策略及多领域语料,为检测器的鲁棒性评估提供了全面基准。当前研究聚焦于利用该数据集探索跨模型、跨语言的检测泛化机制,特别是在对抗性对齐场景下,如何提升检测器对未知生成模式的识别能力。相关热点事件包括学术会议如COLING2025设立专门检测任务,推动该领域向更稳健、可解释的方向发展,对维护信息真实性与网络安全具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作