SM-D, AIGTBench

Name: SM-D, AIGTBench
Creator: 香港科技大学（广州）, CISPA亥姆霍兹信息安全中心
Published: 2024-12-24 12:04:54
License: 暂无描述

arXiv2024-12-24 更新2024-12-26 收录

下载链接：

http://arxiv.org/abs/2412.18148v1

下载链接

链接失效反馈

官方服务：

资源简介：

SM-D数据集由香港科技大学（广州）和CISPA亥姆霍兹信息安全中心的研究团队创建，旨在量化社交媒体平台上AI生成文本（AIGT）的普及情况。该数据集包含了来自Medium、Quora和Reddit三个平台的约240万条帖子，时间跨度为2022年1月至2024年10月。AIGTBench数据集则是一个用于训练和评估AIGT检测器的基准数据集，包含了由12个不同的大型语言模型生成的约2877万条AIGT样本和1355万条HWT样本。AIGTBench的创建过程结合了开源数据集和基于社交媒体文本生成的AIGT数据，旨在为AIGT检测器提供多样化的训练和评估环境。该数据集的应用领域主要集中在社交媒体内容的AI生成文本检测，旨在解决AIGT在社交媒体上的滥用问题，如虚假信息传播和舆论操纵。

The SM-D dataset was developed by research teams from The Hong Kong University of Science and Technology (Guangzhou) and CISPA Helmholtz Center for Information Security, aiming to quantify the prevalence of AI-generated text (AIGT) on social media platforms. This dataset contains approximately 2.4 million posts from three platforms: Medium, Quora, and Reddit, spanning from January 2022 to October 2024. The AIGTBench dataset is a benchmark dataset for training and evaluating AIGT detectors, containing around 28.77 million AIGT samples and 13.55 million human-written text (HWT) samples generated by 12 distinct large language models (LLMs). The development of AIGTBench combines open-source datasets and AIGT data generated from social media text, aiming to provide diverse training and evaluation environments for AIGT detectors. The main application scenarios of this dataset focus on AI-generated text detection for social media content, aiming to address the abuse of AIGT on social media, such as the spread of disinformation and public opinion manipulation.

提供机构：

香港科技大学（广州）, CISPA亥姆霍兹信息安全中心

创建时间：

2024-12-24

搜集汇总

数据集介绍

构建方式

SM-D数据集的构建基于从Medium、Quora和Reddit三个主流社交媒体平台收集的约240万条帖子，时间跨度为2022年1月至2024年10月。数据经过预处理，剔除了字符数少于150或英文内容比例低于90%的文本，以确保数据质量。AIGTBench数据集则结合了公开的开源数据集和通过12种大型语言模型（LLMs）生成的社交媒体文本，旨在为AIGT检测器提供训练和评估基准。AIGTBench包含约2877万条AI生成文本和1355万条人类撰写文本，涵盖了GPT系列、Llama系列等多种模型。

特点

SM-D数据集的特点在于其广泛的覆盖范围，涵盖了三个主要社交媒体平台上的大量用户生成内容，时间跨度长达近三年，能够反映AI生成文本在社交媒体上的动态变化。AIGTBench数据集则以其多样性和全面性著称，不仅包含了多种开源数据集，还通过12种不同的LLMs生成了大量文本，确保了检测器在不同模型生成文本上的泛化能力。此外，AIGTBench还通过平台特定的任务设计，模拟了真实的社交媒体文本生成场景，进一步增强了数据集的实用性。

使用方法

SM-D数据集主要用于量化社交媒体平台上AI生成文本的流行趋势，通过应用AIGTBench训练出的最佳检测器OSM-Det，可以追踪不同平台上AI生成文本的比例（AAR）随时间的变化。AIGTBench数据集则用于训练和评估AIGT检测器，通过对比不同检测器的性能，选择最优模型进行实际应用。此外，AIGTBench还可用于分析AI生成文本与人类撰写文本在语言模式、主题分布、用户互动等方面的差异，为相关研究提供数据支持。

背景与挑战

背景概述

随着大型语言模型（LLMs）的快速发展，社交媒体平台上AI生成文本（AIGTs）的出现日益增多。然而，AIGTs的滥用可能对公众舆论产生深远影响，例如传播错误信息和操纵叙事。尽管其重要性，目前仍缺乏对社交媒体上AIGTs普遍性的系统性研究。为填补这一空白，香港科技大学（广州）和CISPA亥姆霍兹信息安全中心的研究团队于2024年12月发布了SM-D和AIGTBench数据集。SM-D包含来自Medium、Quora和Reddit三大社交媒体平台的约240万条帖子，时间跨度为2022年1月至2024年10月。AIGTBench则结合了开源数据集和由12种LLMs生成的社交媒体文本，用于训练和评估AIGT检测器。该研究首次系统地量化、监测并分析了社交媒体上的AIGTs，揭示了不同平台上AI生成内容的变化趋势及其与人类撰写文本的多维度差异。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，AIGT检测的核心挑战在于如何准确区分AI生成文本与人类撰写文本。随着LLMs生成质量的提升，AIGTs与人类文本在语言模式、主题分布和表达风格上愈发相似，传统的检测方法难以应对这种复杂性。其次，在数据集构建过程中，研究人员面临数据多样性和质量的挑战。尽管AIGTBench涵盖了12种主流LLMs生成的文本，但仍未覆盖所有LLMs，且数据分布偏向GPT和Llama系列，可能导致检测器在其他模型上的泛化能力不足。此外，社交媒体数据的噪声和冗余信息增加了数据清洗和预处理的难度，进一步影响了数据集的构建效率和准确性。

常用场景

经典使用场景

SM-D和AIGTBench数据集在社交媒体平台上AI生成文本（AIGT）的检测与监控中发挥了重要作用。通过收集来自Medium、Quora和Reddit等平台的数百万条帖子，研究人员能够系统地量化AIGT的普及程度，并构建多样化的基准数据集AIGTBench，用于训练和评估AIGT检测器。这些数据集为研究AI生成文本在社交媒体中的传播趋势、语言特征及其对公众舆论的影响提供了坚实的基础。

衍生相关工作

基于SM-D和AIGTBench数据集，衍生出了多项经典研究工作。例如，研究人员利用这些数据集开发了OSM-Det检测器，该检测器在AIGTBench上表现出色，准确率和F1分数分别达到0.979和0.980。此外，这些数据集还被用于研究AIGT与HWT在语言特征、主题分布和用户互动等方面的差异，推动了AI生成文本检测领域的进一步发展。其他相关研究还包括对AIGT在不同社交媒体平台上的传播趋势进行深入分析，揭示了LLM技术在内容创作中的广泛应用及其对用户行为的影响。

数据集最近研究