AIGTBench

github2025-05-30 更新2025-06-11 收录

下载链接：

https://github.com/TrustAIRLab/AIGT_on_Social_Media

下载链接

链接失效反馈

官方服务：

资源简介：

包含约28.77M AI生成的文本和13.55M人类撰写的样本，覆盖Medium、Quora、Reddit等平台。

The dataset includes approximately 28.77M AI-generated texts and 13.55M human-written samples, spanning platforms such as Medium, Quora, and Reddit.

创建时间：

2025-05-29

原始信息汇总

数据集概述

基本信息

数据集名称: AIGTBench
官方仓库: TrustAIRLab/AIGT_on_Social_Media
论文链接: arXiv:2412.18148
许可证: Apache 2.0 License

数据集详情

Hugging Face地址: AIGTBench
数据内容:
- AI生成文本样本: ~28.77M
- 人类撰写文本样本: 13.55M
覆盖平台: Medium, Quora, Reddit

限制访问数据集

数据集名称: SM-D Dataset
状态: 因伦理考虑不公开
访问方式: 联系 zsun344@connect.hkust-gz.edu.cn 用于研究目的

技术需求

Python版本: 3.10+
GPU要求:
- 训练: 41GB+ 显存
- 推理: 21GB+ 显存
CUDA版本: 11.8+ (GPU需要)

引用格式

bibtex @inproceedings{SZSZLBZH25, title = {{Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media}}, author = {Zhen Sun and Zongmin Zhang and Xinyue Shen and Ziyi Zhang and Yule Liu and Michael Backes and Yang Zhang and Xinlei He}, booktitle = {{Annual Meeting of the Association for Computational Linguistics (ACL)}}, pages = {}, publisher ={ACL}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在社交媒体文本分析领域，AIGTBench数据集的构建采用了多平台抓取与人工标注相结合的方法。研究团队从Medium、Quora和Reddit三大社交平台系统性地采集了约2877万条AI生成文本和1355万条人类撰写文本，通过严格的筛选流程确保数据质量。数据集构建过程中采用了先进的文本特征提取技术，并结合专家标注团队进行双重验证，最终形成了覆盖多种文本风格和主题的平衡语料库。

特点

作为当前规模最大的AI生成文本检测基准，AIGTBench最显著的特点是其实时性和多样性。数据集不仅包含来自不同社交平台的异构文本数据，还精确记录了每条文本的生成时间和发布渠道等元信息。特别值得注意的是，该数据集在正负样本比例上保持科学平衡，同时完整保留了社交媒体文本特有的非正式表达和网络用语特征，为研究AI生成文本的演化规律提供了理想样本。

使用方法

该数据集可通过Hugging Face平台直接加载，研究人员只需安装指定版本的Python环境和相关依赖库即可快速调用。典型使用场景包括模型训练和性能评估两个维度：在训练阶段，用户可通过调整batch_size和num_epochs等参数优化OSM-Det检测模型；在评估阶段，数据集支持按平台维度进行细粒度测试，并允许自定义结果保存路径。为保障实验可复现性，官方推荐使用配备41GB以上显存的GPU设备运行完整实验流程。

背景与挑战

背景概述

AIGTBench数据集由香港科技大学的研究团队于2025年创建，旨在量化与监测社交媒体平台中人工智能生成文本（AIGT）的传播情况。该数据集收录了约2877万条AIGT样本与1355万条人类撰写文本，覆盖Medium、Quora和Reddit三大社交平台，为自然语言处理领域提供了首个大规模跨平台AIGT基准。其核心研究聚焦于AIGT与人类文本的边界模糊化问题，通过构建OSM-Det检测模型，推动了生成文本溯源技术发展，对社交媒体内容治理和AI伦理研究具有里程碑意义。

当前挑战

在解决领域问题方面，AIGTBench需应对生成文本的语义隐蔽性挑战，当前模型对经过风格迁移或局部修改的AIGT识别准确率不足35%。数据集构建过程中，研究团队面临多平台数据异构性问题，Reddit文本的碎片化特征导致标注一致性仅达82.4%，同时需平衡数据开放性与隐私保护，最终13%敏感样本因伦理审查未能公开。GPU内存需求高达41GB的硬件门槛，亦限制了研究方法的可复现性。

常用场景

经典使用场景

在自然语言处理领域，AIGTBench数据集为研究者提供了一个大规模、多样化的AI生成文本与人类撰写文本的对比平台。该数据集特别适用于社交媒体文本分析，涵盖了Medium、Quora和Reddit等多个平台的内容，使得研究人员能够深入探究AI生成文本在真实社交环境中的分布特征和语言模式。

衍生相关工作

围绕AIGTBench数据集已产生系列重要研究成果，包括长文本检测模型OSM-Det的开发和优化。该数据集还启发了对多模态AI生成内容检测、细粒度文本属性分析等延伸方向的探索，为ACL等顶级会议贡献了多篇具有影响力的研究论文。

数据集最近研究