2024 U.S. Election Multimodal AIGC Dataset

github2025-02-21 更新2025-02-23 收录

下载链接：

https://github.com/angelayejinyi/AIGC-Election-2024

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包括文本和图像两个部分。文本部分包括一个AI文本分类器及其训练集，由四个领先AI模型生成的推文以及来自ChatGPT时代之前的由人类编写的推文组成。图像部分则是一个由GPT-4o分类的图像数据集。

This dataset comprises two components: text and image modalities. The text component includes an AI text classifier and its training corpus, which is constructed from tweets generated by four state-of-the-art AI models and human-written tweets predating the ChatGPT era. The image component is an image dataset classified by GPT-4o.

创建时间：

2025-02-12

原始信息汇总

2024 U.S. Election Multimodal AIGC Dataset 概述

数据集简介

数据集名称：2024 U.S. Election Multimodal AIGC Dataset
数据集组成：包含文本和图像两个部分
文本部分：包括AI文本分类器和其训练集，由四种领先AI模型生成的推文以及ChatGPT之前时代的人类撰写的推文组成
图像部分：由GPT-4o分类和标记的图像数据集

文本数据集

数据来源：基于Dmonte等人（2024年）的方法论构建，并使用Cinus等人（2025年）建议的提示进行 refined
包含内容：
- 人类撰写的推文：从2020年美国总统选举相关数据集中随机抽样
- AI生成的推文：针对每个人类撰写的推文，使用四种不同的AI模型生成对应的推文
数据拆分：分为训练集和测试集，适用于二元分类任务
数据位置：位于text_dataset文件夹中，训练和测试数据集分别为train.csv和test.csv，每个LLM的推文对存放在human_ai_tweet_pairs文件夹中

模型训练

模型类型：RoBERTa模型
训练细节：使用AdamW优化器，学习率为1e-5，训练3个周期，验证集上的F1分数为0.96
训练命令：python train.py

图像数据集

数据分类：使用GPT-4o过滤和标记
分类结果：分为AI生成的图像和非AI生成的图像
数据组织：
- 按月分文件夹：七月、八月、九月
- 每月文件夹内容：多个CSV文件，每个文件存储最多100,000条记录
- CSV文件格式：包含content（分类结果），image_url（图像链接），tweet_url（原始推文链接）三列
数据统计：共包含2,228,462张分类图像，七月、八月、九月分别有1,130,560、519,687、578,215张图像
文件结构：数据集按月组织，每月包含多个以chunk_0.csv开始的CSV文件，按序编号

使用说明

过滤图像：使用content列过滤AI生成与非AI生成图像
追踪原始内容：利用image_url和tweet_url追溯原始图像和推文

引用

论文引用：请参考以下Bibtex格式

bibtex @misc{chen2025prevalencesharingpatternsspreaders, title={Prevalence, Sharing Patterns, and Spreaders of Multimodal AI-Generated Content on X during the 2024 U.S. Presidential Election}, author={Zhiyi Chen and Jinyi Ye and Emilio Ferrara and Luca Luceri}, year={2025}, eprint={2502.11248}, archivePrefix={arXiv}, primaryClass={cs.SI}, url={https://arxiv.org/abs/2502.11248}, }

搜集汇总

数据集介绍

构建方式

2024 U.S. Election Multimodal AIGC Dataset的构建，基于Dmonte等人在2024年的方法论，并采用Cinus等人于2025年提出的提示进行进一步精炼。该数据集包含文本和图像两部分，文本部分由人类编写的推文和四种领先AI模型生成的推文组成，而图像部分则由GPT-4o进行分类。

特点

该数据集的特点在于其包含了人类编写与AI生成的文本对，以及经过GPT-4o分类的图像数据。文本数据涵盖了2020年美国选举相关的推文，且时间上早于大规模语言模型的使用，图像数据则按照月进行分类组织，包含超过220万条经过分类的图像记录。

使用方法

数据集的使用包括了对文本数据的分类训练，以及图像数据的分析和过滤。文本数据可根据训练集和测试集进行二分类任务，以区分推文是人类编写还是AI生成；图像数据则可通过content列筛选AI生成与非AI生成图像，并通过image_url和tweet_url列追溯原始内容。

背景与挑战

背景概述

2024 U.S. Election Multimodal AIGC Dataset是一项针对2024年美国总统选举期间产生的多模态人工智能生成内容的研究成果。该数据集由文本和图像两部分构成，旨在为研究者提供关于人工智能在社交媒体影响力和传播模式的分析素材。创建于2024年，由Dmonte等人提出构建方法，并在Cinus等人的建议下进一步精炼。数据集的文本部分包含了人类编写的推文以及四种主流人工智能模型生成的推文，图像部分则是通过GPT-4o进行分类和标注的AI生成图像数据集。此数据集的研究成果对于理解人工智能在选举信息传播中的作用具有重要价值。

当前挑战

该数据集在构建过程中面临了多重挑战。首先，在文本数据方面，如何确保AI生成的推文与人类编写的推文在风格和内容上具有足够的相似性，是研究的一大挑战。其次，图像数据的分类和标注需要高准确性的AI模型支持，这涉及到模型训练和验证的准确性问题。此外，数据集的构建还需考虑数据的多样性和代表性，以确保研究结果的广泛适用性。在使用该数据集时，研究人员还需解决如何有效区分AI生成内容与人类生成内容的难题，以及如何处理大规模数据集带来的计算和存储挑战。

常用场景

经典使用场景

针对2024年美国总统选举这一重大社会事件，2024 U.S. Election Multimodal AIGC Dataset数据集提供了丰富的文本与图像素材，其经典使用场景在于对AI生成内容进行识别与分类。研究人员可借助该数据集，对AI生成文本和图像进行深入分析，从而发展出更高效的检测模型，以区分AI与人类创作的内容。

解决学术问题

该数据集解决了AI生成内容在社交媒体上泛滥所引起的真实性问题，为学术研究提供了可靠的实验基础。通过训练具有高F1分数的模型，研究者能够有效识别AI生成的推文和图像，这对于维护网络信息的真实性和公正性具有重要意义。

衍生相关工作

该数据集的发布催生了大量相关研究，如对AI生成内容的传播模式、影响范围及其在特定社会事件中的角色等方面的探讨。这些研究进一步扩展了数据集的应用范围，推动了相关领域的学术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集