yaful/MAGE
收藏Hugging Face2024-05-22 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/yaful/MAGE
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
<div align="center">
<h1>MAGE: Machine-generated Text Detection in the Wild</h1>
</div>
## 🚀 Introduction
Recent advances in large language models have enabled them to reach a level of text generation comparable to that of humans.
These models show powerful capabilities across a wide range of content, including news article writing, story generation, and scientific writing.
Such capability further narrows the gap between human-authored and machine-generated texts, highlighting the importance of machine-generated text detection to avoid potential risks such as fake news propagation and plagiarism.
In practical scenarios, the detector faces texts from various domains or LLMs without knowing their sources.
To this end, we build **a comprehensive testbed for machine-generated text detection**, by gathering texts from various human writings and machine-generated texts generated by different LLMs.
The data in this repository is used to evaluate the effectiveness of machine-generated detection methods, as described in our paper titled "MAGE: Machine-generated Text Detection in the Wild" (available at https://arxiv.org/abs/2305.13242). We invite you to test your own detection methods on our testbed and encourage you to star our [Github repo](https://github.com/yafuly/MAGE).
## 📚 Citation
If you use this dataset in your research, please cite it as follows:
```bibtex
@misc{li2024mage,
title={MAGE: Machine-generated Text Detection in the Wild},
author={Yafu Li and Qintong Li and Leyang Cui and Wei Bi and Zhilin Wang and Longyue Wang and Linyi Yang and Shuming Shi and Yue Zhang},
year={2024},
eprint={2305.13242},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
```
We welcome contributions to improve this dataset! If you have any questions or feedback, please feel free to reach out at yafuly@gmail.com.
<!-- # 🤝 Contributing -->
---
license: Apache-2.0
---
<div align="center">
<h1>MAGE:真实场景下的机器生成文本检测(Machine-generated Text Detection in the Wild)</h1>
</div>
## 🚀 引言
近年来,大语言模型(Large Language Model)的技术进展使其文本生成能力已达到可与人类媲美的水平。这类模型在新闻撰稿、故事创作、学术写作等众多内容场景中均展现出强劲的生成能力。此类能力进一步缩小了人类创作文本与机器生成文本之间的差距,也凸显了机器生成文本检测技术的重要性,以规避虚假新闻传播、学术抄袭等潜在风险。在实际应用场景中,检测模型往往需要面对来自不同领域、由不同大语言模型生成的文本,且无法获知这些文本的具体来源。
为此,我们通过收集不同来源的人类创作文本与各类大语言模型生成的机器文本,构建了**一套面向机器生成文本检测的综合性测试基准平台**。本仓库收录的数据可用于评估机器生成文本检测方法的性能,相关细节已发表于题为《MAGE:真实场景下的机器生成文本检测》的论文(可在https://arxiv.org/abs/2305.13242获取)。我们诚挚邀请各位研究者在本测试基准平台上验证自研的检测方法,并欢迎为我们的[GitHub仓库](https://github.com/yafuly/MAGE)点亮Star。
## 📚 引用规范
若您在研究中使用本数据集,请按以下格式引用:
bibtex
@misc{li2024mage,
title={MAGE: Machine-generated Text Detection in the Wild},
author={Yafu Li and Qintong Li and Leyang Cui and Wei Bi and Zhilin Wang and Longyue Wang and Linyi Yang and Shuming Shi and Yue Zhang},
year={2024},
eprint={2305.13242},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
我们欢迎各类贡献以完善本数据集!若您有任何疑问或建议,可通过邮箱yafuly@gmail.com与我们联系。
<!-- # 🤝 贡献指南 -->
提供机构:
yaful
原始信息汇总
数据集概述
数据集名称
MAGE: Machine-generated Text Detection in the Wild
数据集目的
构建一个全面的测试平台,用于评估机器生成文本检测方法的有效性。数据集包含来自不同领域的人类写作和由不同大型语言模型生成的机器生成文本。
数据集内容
- 人类写作文本
- 机器生成文本(由不同大型语言模型生成)
数据集使用
用于评估和开发机器生成文本检测技术。
引用信息
bibtex @misc{li2024mage, title={MAGE: Machine-generated Text Detection in the Wild}, author={Yafu Li and Qintong Li and Leyang Cui and Wei Bi and Zhilin Wang and Longyue Wang and Linyi Yang and Shuming Shi and Yue Zhang}, year={2024}, eprint={2305.13242}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,随着大语言模型生成文本质量的显著提升,构建一个能够有效区分人类与机器生成文本的评估基准显得尤为重要。MAGE数据集的构建过程,系统性地汇集了来自多样化领域的人类撰写文本,并利用多种前沿大语言模型生成对应的机器文本,从而形成一个覆盖广泛场景的综合测试平台。该过程注重数据来源的多样性与平衡性,旨在模拟真实世界中检测器所面临的不明来源文本的复杂环境,为检测方法的鲁棒性评估提供了坚实基础。
特点
MAGE数据集的核心特点在于其构建的全面性与现实针对性。它不仅涵盖了新闻写作、故事生成和科学文献等多种文本类型,还纳入了由不同大语言模型产生的机器文本,从而精准地反映了当前文本生成技术的前沿水平与多样性。这种设计使得数据集能够有效模拟‘野生’环境下的检测挑战,即检测器需在不预先知晓文本具体来源(如特定领域或模型)的情况下进行判断,为评估检测方法的泛化能力和实际应用效能提供了关键标准。
使用方法
该数据集主要服务于机器生成文本检测算法的评估与比较研究。使用者可将自身开发的检测模型在此测试平台上进行验证,通过模型在区分人类文本与多样化机器生成文本上的表现,客观衡量其检测效力与鲁棒性。具体而言,研究人员可按照数据集提供的划分,对模型进行训练与测试,分析其在面对未知领域或未知生成模型时的泛化性能,从而推动更可靠、实用的文本检测技术的发展。
背景与挑战
背景概述
随着大语言模型技术的飞速发展,其生成的文本质量已逼近人类水平,广泛应用于新闻撰写、故事创作及学术写作等领域。这一进展使得人机文本界限日益模糊,引发了关于虚假信息传播与学术剽窃等潜在风险的深刻关切。为此,由Yafu Li等研究人员于2024年构建的MAGE数据集应运而生,旨在为机器生成文本检测研究提供一个全面的测试基准。该数据集汇集了多领域的人类书写文本与多种大语言模型生成的机器文本,核心研究问题聚焦于在未知文本来源的开放环境中实现高效、鲁棒的检测,对推动自然语言处理领域的可信人工智能发展具有重要影响力。
当前挑战
MAGE数据集致力于解决机器生成文本检测这一核心领域问题,其挑战在于文本风格的极度相似性导致判别特征模糊,以及开放场景中文本来源的多样性加剧了模型泛化难度。在构建过程中,研究人员需克服数据采集的广泛性与平衡性难题,确保涵盖不同领域的人类文本与多种大语言模型的输出,同时维护数据质量与标注一致性,以真实反映实际应用中的复杂分布。
常用场景
经典使用场景
在自然语言处理领域,随着大型语言模型生成文本质量的显著提升,区分人类创作与机器生成文本的需求日益迫切。MAGE数据集通过整合多领域的人类文本与多种大语言模型生成的文本,构建了一个全面的检测基准。该数据集最经典的使用场景在于评估和比较不同机器生成文本检测方法的性能,为研究者提供了一个标准化的测试平台,以验证检测算法在未知来源文本上的泛化能力与鲁棒性。
衍生相关工作
基于MAGE数据集,已衍生出多项经典研究工作,主要集中在提升检测模型的跨域适应性与鲁棒性。例如,一些研究利用该数据集的多源特性,探索了基于领域自适应或元学习的检测框架;另一些工作则结合对比学习或提示工程方法,以增强模型对未知生成模型的识别能力。这些衍生工作不仅深化了对机器生成文本检测机理的理解,也推动了相关技术在实际部署中的效能优化与创新。
数据集最近研究
最新研究方向
在自然语言处理领域,随着大型语言模型生成文本质量的飞速提升,机器生成文本与人类创作的界限日益模糊,这引发了关于信息真实性与学术诚信的广泛关切。MAGE数据集作为一个综合性的检测基准,汇集了多领域人类文本及不同大模型生成的机器文本,为机器生成文本检测研究提供了关键资源。当前前沿研究聚焦于开发跨领域、跨模型的通用检测方法,以应对实际场景中文本来源未知的挑战,相关热点包括利用深度学习模型进行特征提取与分类,以及探索对抗性样本下的检测鲁棒性。该数据集的建立不仅推动了检测技术的进步,也对防范虚假新闻传播和学术抄袭具有重要现实意义,为构建可信的人工智能生态系统提供了坚实支撑。
以上内容由遇见数据集搜集并总结生成



