AIGTBench

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/tarryzhang/AIGTBench

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含文本、标签、模型名称、社交媒体平台和创建者模型信息的文本数据集，适用于训练和测试。数据集分为训练集和测试集，共包含约845437个示例。

创建时间：

2025-05-24

原始信息汇总

AIGTBench数据集概述

数据集基本信息

许可证: Apache 2.0
语言: 英语
任务类别: 文本分类
标签: AIGT
下载大小: 660031258字节
数据集大小: 1236486131字节

数据集结构

特征

text (string): 文本内容
label (int64): 分类标签
- 0: 人类撰写文本 (HWT)
- 1: AI生成文本 (AIGT)
model (string): 生成文本的模型
- Human: 人类撰写内容
- gpt3_5: GPT-3.5生成
- gpt4o: GPT-4o生成
- gpt4o_mini: GPT-4o-mini生成
- Llama-2-70B-Chat: Llama-2-70B-Chat生成
- LLaMA-65B-AWQ: LLaMA-65B-AWQ生成
- Meta-Llama-3_1-70B-Instruct-AWQ: Meta-Llama-3.1-70B-Instruct-AWQ生成
social_media_platform (string): 来源平台 (Medium, Quora, Reddit)

数据划分

训练集: 524428个样本，640331393字节
测试集: 321069个样本，596154738字节

数据集内容

总样本量: 845497 (524428训练 + 321069测试)
覆盖平台: Medium, Quora, Reddit
包含模型: GPT-3.5, GPT-4o, GPT-4o-mini, Llama-2-70B-Chat, LLaMA-65B-AWQ, Meta-Llama-3.1-70B-Instruct-AWQ及人类撰写内容
任务: 二元文本分类 (人类 vs AI生成)

引用

bibtex @inproceedings{SZSZLBZH25, title = {{Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media}}, author = {Zhen Sun and Zongmin Zhang and Xinyue Shen and Ziyi Zhang and Yule Liu and Michael Backes and Yang Zhang and Xinlei He}, booktitle = {{Annual Meeting of the Association for Computational Linguistics (ACL)}}, pages = {}, publisher ={ACL}, year = {2025} }

联系方式

zsun344@connect.hkust-gz.edu.cn

搜集汇总

数据集介绍

构建方式

AIGTBench数据集作为AI生成文本检测研究的重要基准，其构建过程体现了严谨的科学方法论。研究团队采用混合数据策略，既整合了开源数据集，又专门针对社交媒体场景生成了定制化语料。通过模拟Medium、Quora和Reddit三大平台的文本特征，团队运用GPT-3.5、GPT-4o及Llama系列等前沿大语言模型生成多样化文本，并与人工撰写内容形成二元对比。数据采集过程注重平台多样性和模型代表性，最终构建起包含84万余条样本的平衡语料库。

特点

该数据集最显著的特征在于其真实场景模拟能力与多维度标注体系。文本内容覆盖三大主流社交媒体平台，囊括七种不同生成模型产出内容与人类创作的真实对比。每条样本均标注明确的来源模型和发布平台信息，为研究模型指纹和跨平台检测提供了丰富维度。数据规模达84万条，训练集与测试集按6:4比例划分，确保模型评估的可靠性。二元分类标签设计简洁有效，支持AIGT检测这一核心研究任务。

使用方法

研究者可通过Hugging Face生态系统便捷加载该数据集，标准化的接口设计确保与主流深度学习框架无缝衔接。典型使用流程包括：初始化数据集加载器获取训练测试分割，迭代访问样本获取文本内容及多维元数据（标签、生成模型、来源平台）。该数据集特别适合用于构建二分类器，区分人类创作与AI生成文本。为复现完整基准测试，建议配合论文列出的六个开源AIGT数据集和五个监督微调数据集共同使用，形成全面的评估体系。

背景与挑战

背景概述

AIGTBench数据集由香港科技大学等机构的研究团队于2025年推出，旨在构建一个全面评估AI生成文本（AIGT）检测能力的基准平台。该数据集聚焦于社交媒体环境中AI生成内容与人类撰写文本的二元分类问题，覆盖Medium、Quora和Reddit三大平台，整合了GPT系列、Llama系列等主流大语言模型的生成文本。作为ACL会议收录的研究成果，该数据集通过量化分析社交媒体中的AIGT渗透现象，为数字内容真实性认证研究提供了重要实证基础。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，社交媒体文本的短文本特性、非正式表达风格以及平台特有语境，使得AI生成内容与人类创作的边界日益模糊；在构建过程中，需平衡多平台数据分布差异，处理GPT-3.5至Llama-3等异构模型的生成特征，并确保人类撰写样本的语料代表性。此外，动态演进的大语言模型能力对检测算法的泛化性提出持续挑战。

常用场景

经典使用场景

在自然语言处理领域，AIGTBench数据集为研究者提供了一个标准化的评估平台，专门用于检测社交媒体上的AI生成文本。其经典使用场景包括训练和评估各类AIGT检测模型，特别是在模拟真实社交媒体环境（如Medium、Quora和Reddit）的文本分类任务中。通过整合多平台、多模型生成的文本数据，该数据集能够有效验证检测算法在不同场景下的泛化能力。

解决学术问题

AIGTBench数据集主要解决了AI生成文本检测中的核心学术问题，包括模型泛化性评估、跨平台文本特征提取以及人类与AI文本的边界界定。通过提供大规模、多样化的标注数据，该数据集填补了现有研究中缺乏真实社交媒体场景数据的空白，为量化AI生成文本的渗透率及其影响提供了可靠的研究基础。其意义在于推动了AIGT检测技术向更贴近实际应用场景的方向发展。

衍生相关工作

围绕AIGTBench数据集已衍生出多项经典研究工作，包括基于多模态特征的混合检测框架、针对特定社交平台优化的轻量级分类器，以及探究大语言模型生成文本的指纹识别技术。这些工作不仅扩展了原始数据集的适用场景，还推动了如《HC3》《GPABench2》等关联数据集的协同开发，形成了一套完整的AIGT检测研究生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集