TWIGMA

Name: TWIGMA
Creator: 斯坦福大学
Published: 2023-12-05 08:17:22
License: 暂无描述

arXiv2023-12-05 更新2024-06-21 收录

下载链接：

https://zenodo.org/records/8031785

下载链接

链接失效反馈

官方服务：

资源简介：

TWIGMA是由斯坦福大学开发的包含80万张AI生成图像的数据集，涵盖了2021年至2023年期间从Twitter收集的图像及其元数据。该数据集不仅包括图像本身，还包含如推文文本、创建日期和点赞数等元数据，支持对AI生成图像的内容和主题变化进行时间序列分析。TWIGMA的创建旨在探索AI生成图像的多样性和用户偏好，特别是在社交媒体平台上的表现，为研究AI生成图像的社会影响和人类与AI交互提供了独特的数据资源。

TWIGMA is a dataset containing 800,000 AI-generated images developed by Stanford University, covering images and their associated metadata collected from Twitter between 2021 and 2023. Beyond the images themselves, the dataset also includes metadata such as tweet text, creation date, and like counts, enabling time-series analysis of the content and thematic shifts of AI-generated images. TWIGMA was created to explore the diversity of AI-generated images and user preferences, especially their performance on social media platforms, providing a unique data resource for researching the societal impact of AI-generated images and human-AI interaction.

提供机构：

斯坦福大学

创建时间：

2023-06-14

搜集汇总

数据集介绍

构建方式

在生成式人工智能图像研究领域，数据集的构建需兼顾规模与代表性。TWIGMA数据集通过系统化方法从Twitter平台采集生成式AI图像，其构建过程始于对相关主题标签的识别与迭代筛选，最终确定了19个涵盖通用社区描述与特定模型的关键标签。利用Twitter官方API，研究团队抓取了2021年1月至2023年3月期间包含这些标签的推文，经过媒体ID去重与CLIP嵌入相似性检测，最终保留了约80万张独特图像。每张图像均附有推文文本、创建日期、点赞数等元数据，并通过BLIP模型自动生成图像描述，确保了数据的多维信息完整性。

特点

TWIGMA数据集在生成式AI图像研究领域展现出鲜明的特征。其时间跨度长达两年以上，覆盖了DALL·E、StableDiffusion等多模型生成的图像，为观察主题演变提供了纵向视角。数据集不仅包含图像本身，还整合了丰富的社交媒体元数据，如用户互动指标与推断的视觉主题，这为分析生成内容的社会接受度与传播模式创造了条件。与同类数据集相比，TWIGMA在用户分布与内容多样性上更具代表性，尤其包含了相当比例具有特定风格（如动漫）及NSFW性质的图像，反映了真实社交媒体环境中生成内容的复杂光谱。

使用方法

该数据集为生成式AI图像的量化研究提供了多维度分析框架。研究者可利用其时间序列元数据追踪不同时期图像主题的变迁，例如通过聚类分析识别用户兴趣从自然场景向复杂人像的艺术化转变。嵌入空间中的距离度量支持对生成图像新颖性与变异性的评估，如通过计算与LAION等自然图像数据集的KL散度来量化分布差异。社交媒体互动数据则可用于探索图像特征与受欢迎程度之间的关联，例如分析视觉相似性与点赞数的相关性。此外，数据集配套的推断描述与主题标签为大规模内容分析提供了可扩展的语义基础。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，文本到图像生成模型如DALL·E和StableDiffusion已能一键创作出逼真且富有艺术感的图像，吸引了数百万在线用户。为深入探究此类模型的实际应用与生成内容特性，斯坦福大学的研究团队于2023年构建了TWIGMA数据集。该数据集涵盖了2021年1月至2023年3月期间从Twitter平台收集的超过80万张生成式AI图像，并附带了推文文本、创建日期及点赞数等丰富元数据。TWIGMA的诞生填补了现有数据资源在时间跨度和元数据完整性方面的不足，为分析生成式AI图像的主题演变、内容多样性及其与人类创作图像的差异提供了独特而全面的实证基础，对推动生成式AI的社会学与交互研究具有重要价值。

当前挑战

TWIGMA数据集致力于解决生成式AI图像内容分析与评估的领域挑战，其核心在于系统量化生成图像与自然图像及艺术作品的差异性与多样性，并追踪生成内容随时间的主题变迁。在构建过程中，研究团队面临多重挑战：首先，从海量推文中精准筛选生成式AI图像需依赖迭代式主题标签优化，以确保数据纯净性与代表性；其次，数据去重与质量管控需借助CLIP嵌入计算等先进技术，以消除重复及低质量样本；此外，生成式AI图像中普遍存在的不适宜工作内容（NSFW）不仅带来了伦理与安全隐忧，也干扰了基于社交互动指标（如点赞数）的客观分析。这些挑战凸显了在大规模、开放平台中构建高质量生成式AI数据集的复杂性与必要性。

常用场景

经典使用场景

在生成式人工智能迅猛发展的背景下，TWIGMA数据集为探索社交媒体平台上AI生成图像的分布特征与演化规律提供了关键资源。该数据集通过整合Twitter平台上超过80万张AI生成图像及其元数据，使得研究人员能够深入分析图像主题的多样性、用户互动模式以及时间维度上的内容变迁。其经典应用场景包括利用无监督学习技术对图像进行聚类分析，揭示不同生成模型输出之间的风格差异，并评估AI生成艺术与自然图像或人类艺术作品在视觉特征上的异同。

衍生相关工作

TWIGMA数据集的发布催生了多项衍生研究，推动了生成式AI领域的深入探索。基于该数据集，后续工作进一步细化了AI生成图像的主题分类方法，并开发了更精准的相似度度量指标以识别训练数据中的潜在灵感来源。同时，研究者利用TWIGMA中的时间序列数据，构建了动态模型以预测用户兴趣的演变，为个性化生成系统的设计提供了理论基础。此外，该数据集还促进了关于AI生成内容版权与伦理问题的跨学科讨论，激发了针对模型偏差、安全过滤及社会影响的一系列实证研究。

数据集最近研究