A Comprehensive Dataset for Human vs.AI Generated Text Detection
收藏arXiv2025-10-27 更新2025-10-29 收录
下载链接:
https://huggingface.co/datasets/gsingh1-py/train
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由来自《纽约时报》的真实新闻文章和由多个最先进的语言模型生成的合成版本组成,旨在推动AI生成文本的检测和归因方法的发展。数据集包含超过5.8万个文本样本,涵盖了真实的新闻文章摘要和由Gemima-2-9b、Mistral-7B、Qwen-2-72B、LLaMA-8B、Yi-Large和GPT-4-o等模型生成的合成文本。数据集的构建过程包括从《纽约时报》提取文章摘要作为提示,并使用这些提示生成AI文本输出。数据集可用于开发、训练和评估AI内容检测系统,并支持多项研究,包括开发鲁棒的分类器、特征工程、跨模型泛化、基准测试和模型评估、虚假信息和不真实性的影响以及混合内容推荐系统。
This dataset comprises real news articles from The New York Times and their synthetic variants generated by multiple state-of-the-art language models, with the goal of advancing the development of AI-generated text detection and attribution methodologies. It contains over 58,000 text samples, including authentic news article abstracts and synthetic text produced by models such as Gemima-2-9b, Mistral-7B, Qwen-2-72B, LLaMA-8B, Yi-Large, and GPT-4-o. The dataset construction process entails extracting news article abstracts from The New York Times as prompts, and utilizing these prompts to generate AI text outputs. This dataset can be employed to develop, train, and evaluate AI content detection systems, and supports a broad spectrum of research initiatives, including the development of robust classifiers, feature engineering, cross-model generalization, benchmarking and model evaluation, the impacts of disinformation and inauthenticity, as well as hybrid content recommendation systems.
提供机构:
AI Institute University of South Carolina,USA
创建时间:
2025-10-27
搜集汇总
数据集介绍

构建方式
在人工智能生成文本检测研究领域,构建高质量数据集是推动技术发展的关键基石。本数据集以《纽约时报》跨越二十余年的真实新闻文章为基石,精心筛选出超过58,000个文本样本。通过提取每篇文章的摘要作为标准化提示,利用Gemma-2-9b、Mistral-7B等六种前沿大语言模型生成对应合成文本,同时保留原始人工撰写的完整叙事,形成具有平行结构的对照样本。这种基于真实新闻语料与多模型协同生成的构建策略,确保了数据来源的多样性和现实适用性。
特点
该数据集最显著的特征在于其多维度的数据架构设计。每个样本包含原始提示、人工叙事及六种不同大语言模型生成的合成文本,构成了七维平行语料体系。这种结构不仅支持人机文本二分类任务,更实现了对特定生成模型的溯源研究。数据集覆盖政治、科技、文化等多元主题,时间跨度长达二十年,兼具时序演进特征与领域多样性。其标注体系包含完整的元数据信息,为探究生成文本的语义特征和风格模式提供了丰富的研究维度。
使用方法
该数据集为人工智能生成文本检测研究提供了系统化的实验平台。研究者可基于平行文本结构开发二分类器,通过对比分析人工与机器生成文本的语义差异、句法特征和风格模式,构建高精度检测模型。在模型溯源任务中,可利用多模型输出数据训练特征提取器,实现生成来源的精准识别。数据集支持迁移学习研究,验证检测模型在不同生成器间的泛化能力。此外,其丰富的元数据为探究生成文本与主题、时效等变量的关联规律提供了实证基础。
背景与挑战
背景概述
随着大语言模型的迅猛发展,人工智能生成文本的逼真度显著提升,引发了关于内容真实性、错误信息传播及可信度保障的广泛关注。2025年由南卡罗来纳大学AI研究所、Meta、亚马逊等机构联合发布的《人类与AI生成文本检测综合数据集》,以《纽约时报》二十余年的真实新闻为基底,融合Gemma-2-9b、GPT-4-o等六种前沿模型生成的合成文本,构建了包含5.8万样本的跨时代语料库。该数据集通过提供原文摘要与全文本对照,为数字内容溯源研究奠定了实证基础,对维护新闻公信力与学术伦理具有里程碑意义。
当前挑战
在解决领域核心问题方面,现代大语言模型生成的文本与人类写作风格高度趋同,导致传统基于语法特征或统计规律的检测方法准确率受限,基线实验显示二分类任务仅达58.35%,模型溯源任务更降至8.92%。构建过程中面临双重挑战:其一需平衡真实新闻数据的版权合规性与生成文本的多样性,其二是针对不同模型输出特性设计统一标注框架,例如GPT-4-o与LLaMA-8B在叙事逻辑和修辞偏好上的差异需通过多维元数据精确捕捉。
常用场景
经典使用场景
在人工智能生成文本检测领域,该数据集通过整合《纽约时报》的真实新闻文章与多种前沿大语言模型生成的合成文本,构建了一个包含超过58,000个样本的基准资源。其经典应用场景聚焦于开发二元分类系统,以区分人类撰写与AI生成的文本内容,同时支持模型归因任务,即识别特定文本的来源模型。这一设计为研究社区提供了在真实新闻背景下评估检测算法泛化能力的标准化平台。
解决学术问题
该数据集有效应对了生成式AI时代文本真实性验证的核心挑战。通过提供大规模、多模型对比的标注数据,它解决了传统检测方法因训练数据单一而导致的泛化能力不足问题。其意义在于建立了跨模型检测的评估基准,显著推动了对抗虚假信息、维护新闻可信度的研究进程,为构建透明可控的AI治理体系提供了数据基石。
衍生相关工作
该数据集催生了多项创新性研究,例如基于重写编辑距离的Raidar检测方法,通过分析文本改写过程中的修改幅度来识别生成来源。后续工作进一步探索了多模态融合检测框架,将文本特征与传播网络分析结合;另有研究利用该数据集训练对抗性生成模型,通过模拟人类写作风格提升检测器的鲁棒性,形成了检测与反检测技术协同演进的良性循环。
以上内容由遇见数据集搜集并总结生成



