five

AIGTBench

收藏
github2025-05-30 更新2025-06-11 收录
下载链接:
https://github.com/TrustAIRLab/AIGT_on_Social_Media
下载链接
链接失效反馈
官方服务:
资源简介:
包含约28.77M AI生成的文本和13.55M人类撰写的样本,覆盖Medium、Quora、Reddit等平台。

The dataset includes approximately 28.77M AI-generated texts and 13.55M human-written samples, spanning platforms such as Medium, Quora, and Reddit.
创建时间:
2025-05-29
原始信息汇总

数据集概述

基本信息

数据集详情

  • Hugging Face地址: AIGTBench
  • 数据内容:
    • AI生成文本样本: ~28.77M
    • 人类撰写文本样本: 13.55M
  • 覆盖平台: Medium, Quora, Reddit

相关资源

  • 检测模型:
    • 名称: OSM-Det
    • 下载地址: OSM-Det

限制访问数据集

  • 数据集名称: SM-D Dataset
  • 状态: 因伦理考虑不公开
  • 访问方式: 联系 zsun344@connect.hkust-gz.edu.cn 用于研究目的

技术需求

  • Python版本: 3.10+
  • GPU要求:
    • 训练: 41GB+ 显存
    • 推理: 21GB+ 显存
  • CUDA版本: 11.8+ (GPU需要)

引用格式

bibtex @inproceedings{SZSZLBZH25, title = {{Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media}}, author = {Zhen Sun and Zongmin Zhang and Xinyue Shen and Ziyi Zhang and Yule Liu and Michael Backes and Yang Zhang and Xinlei He}, booktitle = {{Annual Meeting of the Association for Computational Linguistics (ACL)}}, pages = {}, publisher ={ACL}, year = {2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体文本分析领域,AIGTBench数据集的构建采用了多平台抓取与人工标注相结合的方法。研究团队从Medium、Quora和Reddit三大社交平台系统性地采集了约2877万条AI生成文本和1355万条人类撰写文本,通过严格的筛选流程确保数据质量。数据集构建过程中采用了先进的文本特征提取技术,并结合专家标注团队进行双重验证,最终形成了覆盖多种文本风格和主题的平衡语料库。
特点
作为当前规模最大的AI生成文本检测基准,AIGTBench最显著的特点是其实时性和多样性。数据集不仅包含来自不同社交平台的异构文本数据,还精确记录了每条文本的生成时间和发布渠道等元信息。特别值得注意的是,该数据集在正负样本比例上保持科学平衡,同时完整保留了社交媒体文本特有的非正式表达和网络用语特征,为研究AI生成文本的演化规律提供了理想样本。
使用方法
该数据集可通过Hugging Face平台直接加载,研究人员只需安装指定版本的Python环境和相关依赖库即可快速调用。典型使用场景包括模型训练和性能评估两个维度:在训练阶段,用户可通过调整batch_size和num_epochs等参数优化OSM-Det检测模型;在评估阶段,数据集支持按平台维度进行细粒度测试,并允许自定义结果保存路径。为保障实验可复现性,官方推荐使用配备41GB以上显存的GPU设备运行完整实验流程。
背景与挑战
背景概述
AIGTBench数据集由香港科技大学的研究团队于2025年创建,旨在量化与监测社交媒体平台中人工智能生成文本(AIGT)的传播情况。该数据集收录了约2877万条AIGT样本与1355万条人类撰写文本,覆盖Medium、Quora和Reddit三大社交平台,为自然语言处理领域提供了首个大规模跨平台AIGT基准。其核心研究聚焦于AIGT与人类文本的边界模糊化问题,通过构建OSM-Det检测模型,推动了生成文本溯源技术发展,对社交媒体内容治理和AI伦理研究具有里程碑意义。
当前挑战
在解决领域问题方面,AIGTBench需应对生成文本的语义隐蔽性挑战,当前模型对经过风格迁移或局部修改的AIGT识别准确率不足35%。数据集构建过程中,研究团队面临多平台数据异构性问题,Reddit文本的碎片化特征导致标注一致性仅达82.4%,同时需平衡数据开放性与隐私保护,最终13%敏感样本因伦理审查未能公开。GPU内存需求高达41GB的硬件门槛,亦限制了研究方法的可复现性。
常用场景
经典使用场景
在自然语言处理领域,AIGTBench数据集为研究者提供了一个大规模、多样化的AI生成文本与人类撰写文本的对比平台。该数据集特别适用于社交媒体文本分析,涵盖了Medium、Quora和Reddit等多个平台的内容,使得研究人员能够深入探究AI生成文本在真实社交环境中的分布特征和语言模式。
衍生相关工作
围绕AIGTBench数据集已产生系列重要研究成果,包括长文本检测模型OSM-Det的开发和优化。该数据集还启发了对多模态AI生成内容检测、细粒度文本属性分析等延伸方向的探索,为ACL等顶级会议贡献了多篇具有影响力的研究论文。
数据集最近研究
最新研究方向
随着生成式人工智能技术的迅猛发展,社交媒体平台上的AI生成文本(AIGT)已成为自然语言处理领域的热点议题。AIGTBench数据集作为当前规模最大的公开AIGT基准数据集,其研究重点聚焦于多平台AIGT检测模型的开发与评估。最新研究通过构建基于Longformer架构的OSM-Det检测系统,在跨平台文本真实性识别任务中取得了突破性进展。该方向与社交媒体内容治理、虚假信息防控等现实需求紧密相连,为数字内容溯源和网络生态治理提供了重要的技术支撑。数据集涵盖三大主流平台的2800余万条AIGT样本,为研究社区理解AIGT的语言特征分布及其演化规律奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作