five

MAGE

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/yafuly/mage
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个为训练和评估机器生成文本检测器而设计的大型语料库,涵盖了10个领域的文本内容。为了确保每个领域机器生成文本和人工撰写文本的数量相等,训练集进行了降采样处理。测试集则包含了额外的不曾见过的领域,如CNN新闻、对话摘要、IMDb评论和PubMed文献。这个大型语料库在规模上横跨多个领域,其任务是检测机器生成的文本。

This dataset is a large-scale corpus designed for training and evaluating machine-generated text detectors, covering textual content across 10 distinct domains. To ensure an equal number of machine-generated and human-written texts within each domain, downsampling was performed on the training set. The test set includes additional unseen domains such as CNN news, conversational summaries, IMDb reviews, and PubMed literature. This large corpus spans multiple domains, with its core task focused on detecting machine-generated texts.
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MAGE数据集是一个用于机器生成文本检测的综合性基准数据集,包含约44.7万条文本,涵盖10个写作领域和27种主流大语言模型,旨在模拟真实世界场景以评估检测器的泛化能力。该数据集提供了多个难度递增的测试集,支持跨领域和跨模型检测,并可通过Huggingface等平台便捷访问,适用于研究和开发深度伪造文本检测方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作