five

AIGTBench

收藏
Hugging Face2025-05-24 更新2025-05-25 收录
下载链接:
https://huggingface.co/datasets/tarryzhang/AIGTBench
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含文本、标签、模型名称、社交媒体平台和创建者模型信息的文本数据集,适用于训练和测试。数据集分为训练集和测试集,共包含约845437个示例。
创建时间:
2025-05-24
原始信息汇总

AIGTBench数据集概述

数据集基本信息

  • 许可证: Apache 2.0
  • 语言: 英语
  • 任务类别: 文本分类
  • 标签: AIGT
  • 下载大小: 660031258字节
  • 数据集大小: 1236486131字节

数据集结构

特征

  • text (string): 文本内容
  • label (int64): 分类标签
    • 0: 人类撰写文本 (HWT)
    • 1: AI生成文本 (AIGT)
  • model (string): 生成文本的模型
    • Human: 人类撰写内容
    • gpt3_5: GPT-3.5生成
    • gpt4o: GPT-4o生成
    • gpt4o_mini: GPT-4o-mini生成
    • Llama-2-70B-Chat: Llama-2-70B-Chat生成
    • LLaMA-65B-AWQ: LLaMA-65B-AWQ生成
    • Meta-Llama-3_1-70B-Instruct-AWQ: Meta-Llama-3.1-70B-Instruct-AWQ生成
  • social_media_platform (string): 来源平台 (Medium, Quora, Reddit)

数据划分

  • 训练集: 524428个样本,640331393字节
  • 测试集: 321069个样本,596154738字节

数据集内容

  • 总样本量: 845497 (524428训练 + 321069测试)
  • 覆盖平台: Medium, Quora, Reddit
  • 包含模型: GPT-3.5, GPT-4o, GPT-4o-mini, Llama-2-70B-Chat, LLaMA-65B-AWQ, Meta-Llama-3.1-70B-Instruct-AWQ及人类撰写内容
  • 任务: 二元文本分类 (人类 vs AI生成)

相关资源

完整AIGTBench基准所需公开数据集

  1. MGT-Academic: 学术文本
  2. Coco-GPT3.5: GPT-3.5生成的报纸文章
  3. GPABench2: 学术摘要
  4. LWD: 风格化亚马逊评论
  5. HC3: 多领域问答
  6. AIGT: 真实场景生成内容

监督微调数据集

  1. Claude2-Alpaca: 指令跟随数据集
  2. Claude-3-Opus-Claude-3.5-Sonnet-9k: 多模型指令数据
  3. GPTeacher/GPT-4 General-Instruct: 通用指令数据集
  4. Alpaca_GPT4: GPT-4指令跟随
  5. Instruction in the Wild: 多样化指令数据集

引用

bibtex @inproceedings{SZSZLBZH25, title = {{Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media}}, author = {Zhen Sun and Zongmin Zhang and Xinyue Shen and Ziyi Zhang and Yule Liu and Michael Backes and Yang Zhang and Xinlei He}, booktitle = {{Annual Meeting of the Association for Computational Linguistics (ACL)}}, pages = {}, publisher ={ACL}, year = {2025} }

联系方式

zsun344@connect.hkust-gz.edu.cn

搜集汇总
数据集介绍
main_image_url
构建方式
AIGTBench数据集作为AI生成文本检测研究的重要基准,其构建过程体现了严谨的科学方法论。研究团队采用混合数据策略,既整合了开源数据集,又专门针对社交媒体场景生成了定制化语料。通过模拟Medium、Quora和Reddit三大平台的文本特征,团队运用GPT-3.5、GPT-4o及Llama系列等前沿大语言模型生成多样化文本,并与人工撰写内容形成二元对比。数据采集过程注重平台多样性和模型代表性,最终构建起包含84万余条样本的平衡语料库。
特点
该数据集最显著的特征在于其真实场景模拟能力与多维度标注体系。文本内容覆盖三大主流社交媒体平台,囊括七种不同生成模型产出内容与人类创作的真实对比。每条样本均标注明确的来源模型和发布平台信息,为研究模型指纹和跨平台检测提供了丰富维度。数据规模达84万条,训练集与测试集按6:4比例划分,确保模型评估的可靠性。二元分类标签设计简洁有效,支持AIGT检测这一核心研究任务。
使用方法
研究者可通过Hugging Face生态系统便捷加载该数据集,标准化的接口设计确保与主流深度学习框架无缝衔接。典型使用流程包括:初始化数据集加载器获取训练测试分割,迭代访问样本获取文本内容及多维元数据(标签、生成模型、来源平台)。该数据集特别适合用于构建二分类器,区分人类创作与AI生成文本。为复现完整基准测试,建议配合论文列出的六个开源AIGT数据集和五个监督微调数据集共同使用,形成全面的评估体系。
背景与挑战
背景概述
AIGTBench数据集由香港科技大学等机构的研究团队于2025年推出,旨在构建一个全面评估AI生成文本(AIGT)检测能力的基准平台。该数据集聚焦于社交媒体环境中AI生成内容与人类撰写文本的二元分类问题,覆盖Medium、Quora和Reddit三大平台,整合了GPT系列、Llama系列等主流大语言模型的生成文本。作为ACL会议收录的研究成果,该数据集通过量化分析社交媒体中的AIGT渗透现象,为数字内容真实性认证研究提供了重要实证基础。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,社交媒体文本的短文本特性、非正式表达风格以及平台特有语境,使得AI生成内容与人类创作的边界日益模糊;在构建过程中,需平衡多平台数据分布差异,处理GPT-3.5至Llama-3等异构模型的生成特征,并确保人类撰写样本的语料代表性。此外,动态演进的大语言模型能力对检测算法的泛化性提出持续挑战。
常用场景
经典使用场景
在自然语言处理领域,AIGTBench数据集为研究者提供了一个标准化的评估平台,专门用于检测社交媒体上的AI生成文本。其经典使用场景包括训练和评估各类AIGT检测模型,特别是在模拟真实社交媒体环境(如Medium、Quora和Reddit)的文本分类任务中。通过整合多平台、多模型生成的文本数据,该数据集能够有效验证检测算法在不同场景下的泛化能力。
解决学术问题
AIGTBench数据集主要解决了AI生成文本检测中的核心学术问题,包括模型泛化性评估、跨平台文本特征提取以及人类与AI文本的边界界定。通过提供大规模、多样化的标注数据,该数据集填补了现有研究中缺乏真实社交媒体场景数据的空白,为量化AI生成文本的渗透率及其影响提供了可靠的研究基础。其意义在于推动了AIGT检测技术向更贴近实际应用场景的方向发展。
衍生相关工作
围绕AIGTBench数据集已衍生出多项经典研究工作,包括基于多模态特征的混合检测框架、针对特定社交平台优化的轻量级分类器,以及探究大语言模型生成文本的指纹识别技术。这些工作不仅扩展了原始数据集的适用场景,还推动了如《HC3》《GPABench2》等关联数据集的协同开发,形成了一套完整的AIGT检测研究生态体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作