five

MAGA-cn

收藏
Hugging Face2026-01-19 更新2026-01-20 收录
下载链接:
https://huggingface.co/datasets/anyangsong/MAGA-cn
下载链接
链接失效反馈
官方服务:
资源简介:
MAGA-cn是一个用于推进机器生成文本检测器泛化研究的综合性数据集,通过alignment-augment方法构建。它包含近100万条生成文本,涵盖12种生成器、20个领域(10个英文和10个中文)、4种对齐方法和多样化的解码策略。该数据集是测试检测器鲁棒性和增强微调检测器泛化能力的宝贵资源。

MAGA-cn is a comprehensive dataset developed to advance research on the generalization of machine-generated text detectors, constructed via the alignment-augment method. It contains nearly 1 million generated text samples, covering 12 types of text generators, 20 domains (10 in English and 10 in Chinese), 4 alignment methods, and diverse decoding strategies. This dataset serves as a valuable resource for testing detector robustness and enhancing the generalization capability of fine-tuned detectors.
创建时间:
2026-01-13
原始信息汇总

数据集概述:MAGA-cn

基本信息

  • 数据集名称:MAGA-cn
  • 许可证:MIT
  • 主要语言:中文 (zh)
  • 任务类别:文本分类 (text-classification)
  • 数据规模:100K < n < 1M
  • 官方名称:MAGA-Bench: Machine-Augment-Generated Text via Alignment Detection Benchmark

数据集描述

MAGA-cn 是一个用于推进机器生成文本检测器泛化性研究的综合性数据集,通过对齐增强构建。它包含近百万条生成文本,覆盖12个生成器、20个领域(10个英文 + 10个中文)、4种对齐方法以及多样化的解码策略。该数据集是测试检测器鲁棒性和增强微调检测器泛化能力的宝贵资源。

数据集配置与文件结构

数据集包含6个配置,每个配置包含训练集和验证集。

配置列表

  1. MGB-cn (默认配置)
    • 训练集文件:train/MGB-cn_train.jsonl
    • 验证集文件:val/MGB-cn_val.jsonl
  2. MAGA-cn
    • 训练集文件:train/MAGA-cn_train.jsonl
    • 验证集文件:val/MAGA-cn_val.jsonl
  3. MAGA-cn-extra-BPO
    • 训练集文件:extra/train/MAGA-cn_extra_train_BPO.jsonl
    • 验证集文件:extra/val/MAGA-cn_extra_val_BPO.jsonl
  4. MAGA-cn-extra-roleplaying
    • 训练集文件:extra/train/MAGA-cn_extra_train_role_playing.jsonl
    • 验证集文件:extra/val/MAGA-cn_extra_val_role_playing.jsonl
  5. MAGA-cn-extra-self-refine
    • 训练集文件:extra/train/MAGA-cn_extra_train_self_refine.jsonl
    • 验证集文件:extra/val/MAGA-cn_extra_val_self_refine.jsonl
  6. MAGA-cn-extra-RLDF-CMD
    • 训练集文件:extra/train/MAGA-cn_extra_train_RLDF_CMD.jsonl
    • 验证集文件:extra/val/MAGA-cn_extra_val_RLDF_CMD.jsonl

结构说明

MAGA-cn 数据集整体由两个子集构成:MGB-cn(无对齐的基线数据)和 MAGA-cn(融合了4种对齐方法的完整数据)。此外,还提供了4个独立的 MAGA-cn-extra-<对齐方法> 配置,分别对应每种对齐方法。每个配置均进一步划分为训练和验证两个子分割。为了便于横向比较,每个分割所使用的人类源文本是相同的。

数据字段

每个数据样本包含以下字段:

  • id:唯一标识文本内容的 uuid4。
  • title:提示词中使用的文章标题。
  • text:文本内容(人类撰写文本或机器生成文本)。
  • domain:提示词/文本所属的领域类别(例如 Reddit)。
  • human_source_id:人类撰写源文本的 uuid4。
  • prompt_id:唯一标识所用提示词的 uuid4。
  • system_prompt:生成时使用的系统提示词。
  • user_prompt:生成时使用的用户提示词。
  • model:生成文本的大语言模型。
  • temperature, top_p, top_k, repetition_penalty:文本生成的解码参数。

标签说明:数据集中未直接包含 label 列。进行文本分类时,需根据 model 列手动添加标签:将“human”标记为0,将所有其他值标记为1。

加载方式

使用 datasets 库加载数据集: python from datasets import load_dataset maga = load_dataset("anyangsong/MAGA-cn")

相关资源

  • 项目主页:https://github.com/s1012480564/MAGA
  • 论文地址:https://www.arxiv.org/abs/2601.04633
  • 完整MAGA数据集(英文版):https://huggingface.co/datasets/anyangsong/MAGA
  • 人类源文本数据集:https://huggingface.co/datasets/anyangsong/MAGA-human-source

引用信息

如果使用本数据集,请引用: latex @misc{song2026maga, title={MAGA-Bench: Machine-Augment-Generated Text via Alignment Detection Benchmark}, author={Anyang Song and Ying Cheng and Yiqian Xu and Rui Feng}, year={2026}, eprint={2601.04633}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.04633}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在机器生成文本检测领域,MAGA-cn数据集通过精心设计的对齐增强策略构建而成。该数据集整合了十二种不同的生成模型,覆盖二十个文本领域,其中中文领域占据十个。构建过程中采用了四种对齐方法,包括BPO、角色扮演、自我优化以及RLDF-CMD,并结合多样化的解码参数,如温度、top_p和top_k等,以确保生成文本的丰富性与复杂性。数据来源于统一的人类撰写文本,通过相同的提示词在不同模型与配置下生成机器文本,从而形成具有高度可比性的平行语料。
使用方法
研究人员可通过Hugging Face的datasets库便捷加载MAGA-cn数据集,利用其标准化的数据拆分进行模型训练与验证。在使用时,需根据模型字段手动构建二分类标签,将人类文本标记为0,机器生成文本标记为1,以适配文本分类任务。数据集支持针对不同对齐方法的专项研究,用户可选择完整融合版本或独立对齐子集进行实验,以深入探究检测器在多样化生成策略下的泛化性能。其丰富的元数据字段为错误分析与模型解释提供了有力支撑。
背景与挑战
背景概述
随着大型语言模型生成文本的广泛应用,如何有效检测机器生成文本已成为自然语言处理领域的关键问题。MAGA-cn数据集由研究团队于2026年创建,作为MAGA-Bench基准的重要组成部分,专门针对中文语境下的机器生成文本检测任务。该数据集通过对齐增强方法构建,涵盖12种生成模型、20个领域以及4种对齐方法,旨在为检测器的泛化能力研究提供全面资源。其核心研究问题聚焦于提升检测模型在面对多样化生成策略和领域迁移时的鲁棒性,对推动人工智能安全与内容可信度评估具有显著影响力。
当前挑战
在机器生成文本检测领域,核心挑战在于检测模型需有效区分经过对齐优化后高度拟人化的机器文本与人类创作,这对模型的泛化能力和判别精度提出了极高要求。数据集构建过程中,研究团队面临多重挑战:需协调多种生成模型与对齐方法以覆盖真实场景的复杂性,确保数据在领域和生成策略上的多样性;同时,在数据处理阶段需解决标注一致性、数据平衡以及商业模型生成内容整合等技术难题,以保障数据集的科学严谨性与实用价值。
常用场景
经典使用场景
在自然语言处理领域,随着大型语言模型生成文本的普及,检测机器生成文本成为一项关键任务。MAGA-cn数据集作为机器增强生成文本检测的基准,其经典使用场景在于评估和提升文本检测器的泛化能力。该数据集通过整合多种对齐方法和解码策略,模拟了真实世界中机器文本的多样性,为研究者提供了丰富的训练和验证资源,以测试检测器在不同生成模型和领域下的鲁棒性。
解决学术问题
MAGA-cn数据集致力于解决机器生成文本检测中的泛化性难题。在学术研究中,检测器往往在特定数据上表现良好,但面对未知生成模型或领域时性能下降。该数据集通过涵盖12种生成器、20个领域和4种对齐方法,构建了大规模且多样化的文本集合,帮助研究者探索检测器的跨模型和跨领域适应性,从而推动检测算法在复杂环境中的理论突破。
实际应用
在实际应用中,MAGA-cn数据集为内容审核、学术诚信维护和信息安全提供了重要支持。例如,在教育领域,该数据集可用于开发工具以检测学生作业中的机器生成内容;在社交媒体平台,它帮助识别虚假信息或自动化生成的恶意文本。通过利用数据集中的中文文本和多样化生成策略,这些应用能够更准确地应对现实世界中的文本检测挑战。
数据集最近研究
最新研究方向
在自然语言处理领域,随着大语言模型生成文本的广泛应用,机器生成文本检测的泛化能力成为研究焦点。MAGA-cn数据集通过整合多种对齐方法和解码策略,为检测器鲁棒性评估提供了丰富资源。当前研究前沿集中于利用该数据集探索跨领域、跨模型的检测器泛化性能,特别是在中文语境下应对不同对齐技术如BPO、RLDF-CMD等生成的文本。这些研究不仅推动了检测算法在真实场景中的适应性,还响应了人工智能安全与伦理的热点议题,为防范生成文本滥用提供了关键技术支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作