MAGE

arXiv2025-09-30 收录

自然语言处理

文本检测

数据链接：

https://github.com/yafuly/mage 数据链接链接失效反馈

官方服务：

资源简介：

该数据集是一个为训练和评估机器生成文本检测器而设计的大型语料库，涵盖了10个领域的文本内容。为了确保每个领域机器生成文本和人工撰写文本的数量相等，训练集进行了降采样处理。测试集则包含了额外的不曾见过的领域，如CNN新闻、对话摘要、IMDb评论和PubMed文献。这个大型语料库在规模上横跨多个领域，其任务是检测机器生成的文本。

This dataset is a large-scale corpus designed for training and evaluating machine-generated text detectors, covering textual content across 10 distinct domains. To ensure an equal number of machine-generated and human-written texts within each domain, downsampling was performed on the training set. The test set includes additional unseen domains such as CNN news, conversational summaries, IMDb reviews, and PubMed literature. This large corpus spans multiple domains, with its core task focused on detecting machine-generated texts.

搜集汇总

数据集介绍

背景与挑战

背景概述

MAGE数据集是一个用于机器生成文本检测的综合性基准数据集，包含约44.7万条文本，涵盖10个写作领域和27种主流大语言模型，旨在模拟真实世界场景以评估检测器的泛化能力。该数据集提供了多个难度递增的测试集，支持跨领域和跨模型检测，并可通过Huggingface等平台便捷访问，适用于研究和开发深度伪造文本检测方法。

以上内容由遇见数据集搜集并总结生成

MAGE

资源简介：

相关数据集