S-HArM

Name: S-HArM
Creator: 亚里士多德大学塞萨洛尼基分校电子与计算机工程学院,信息技术研究所,研究中心
Published: 2025-08-28 19:22:15
License: 暂无描述

arXiv2025-08-28 更新2025-08-30 收录

下载链接：

https://github.com/Qedrigord/SHARM

下载链接

链接失效反馈

官方服务：

资源简介：

S-HArM数据集是一个多模态数据集，用于识别AI生成图像的意图。该数据集包含来自Twitter/X和Reddit的9576个图像-文本对，被标记为幽默/讽刺、艺术或虚假信息。此外，该数据集还探索了三种提示策略，以构建大规模的合成训练数据集。

提供机构：

亚里士多德大学塞萨洛尼基分校电子与计算机工程学院,信息技术研究所,研究中心

创建时间：

2025-08-28

原始信息汇总

S-HARM 数据集概述

数据集基本信息

名称：S-HARM
来源：Twitter/X 和 Reddit
数据规模：9,576 个图像-文本对
数据类型：多模态（图像和文本）
数据标签：幽默/讽刺（Humor/Satire）、艺术（Art）、错误信息（Misinformation）

研究背景

该数据集为意图感知分类的多模态数据集，专注于检测合成图像和上下文无关内容背后的意图。现有工作大多忽略AI生成图像背后的意图，此数据集旨在填补该空白。

数据生成方法

采用三种提示策略构建大规模合成训练数据集：

图像引导（image-guided）
描述引导（description-guided）
多模态引导（multimodally-guided）

使用Stable Diffusion生成合成数据。

实验内容

进行了广泛的比较研究，包括：

模态融合
对比学习
重建网络
注意力机制
大型视觉语言模型

主要发现

在图像和多模态引导数据上训练的模型对“野外”内容泛化能力更好，原因是保留了视觉上下文
整体性能仍然有限，凸显了推断意图的复杂性及对专用架构的需求

数据集结构

scraping：用于从Twitter和Reddit挖掘和过滤数据的脚本
generation：用于生成3种不同训练集的代码
train data features：训练集的图像和文本特征表示
test data features：测试样本的特征表示
test data links：测试集使用的原始帖子链接
experiments：所有训练和评估实验代码

许可信息

本项目采用Apache License 2.0许可。详细信息见：https://github.com/Qedrigord/SHARM/blob/main/LICENSE

联系方式

Stefanos-Iordanis Papadopoulos (stefpapad@iti.gr)

资助信息

Horizon Europe项目"DisAI"（资助协议号：101079164）
Horizon Europe项目"vera.ai"（资助协议号：101070093）
Horizon Europe项目"AI-CODE"（资助协议号：101135437）
塞萨洛尼基亚里士多德大学（AUTh）IT中心提供的计算资源支持

搜集汇总

数据集介绍

构建方式

在数字媒体内容真实性验证领域，S-HArM数据集的构建采用了双轨策略。其评估基准源自社交媒体平台Twitter和Reddit的真实场景数据，通过社区标注机制（如Twitter的Community Notes）和主题子论坛筛选，共收集9,576对图像-文本样本，并经过人工验证确保类别平衡。训练集则通过Stable Diffusion XL模型对真实图像进行三种提示策略的合成生成：图像引导生成保留原视觉上下文，描述引导生成依赖BLIP模型生成文本提示，多模态引导则融合图像与文本输入，最终形成每类87,522个样本的均衡训练数据。

特点

该数据集的核心特点在于其意图感知的多模态架构。区别于传统二分类合成检测数据集，S-HArM支持幽默/讽刺、艺术与 misinformation 的三元分类，更贴近实际应用场景的复杂性。其评估基准全部来自真实网络环境，涵盖不同生成模型产生的异构数据，而训练集通过可控的生成策略引入多样化合成特征。多模态耦合机制确保视觉与文本信号的协同分析，例如图像引导生成样本保留更多视觉一致性，而描述引导生成则凸显文本语义主导的生成特征。

使用方法

S-HArM支持端到端的意图感知分类研究，包括单模态与多模态模型的对比验证。研究者可基于其训练集开展跨模态融合、对比学习或重构网络等实验，并通过评估基准测试模型在真实场景中的泛化能力。数据集设计特别强调文本与图像的联合推理，例如使用拼接特征（concatenation）的MLP分类器可达71.6%准确率。此外，该数据集适用于零样本的大视觉语言模型测试，通过分阶段提示策略（如两阶段分类提示）探索模型对抽象意图概念的理解能力。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，合成图像在数字媒体中的泛滥引发了对其潜在滥用风险的广泛关注。2025年，塞萨洛尼基亚里士多德大学的研究团队推出了S-HArM数据集，旨在填补现有研究在意图识别领域的空白。该数据集聚焦于多模态环境下AI生成图像的意图分类问题，涵盖幽默讽刺、艺术创作与错误信息三大类别，通过整合社交媒体平台的真实数据与基于Stable Diffusion生成的合成样本，为意图感知分类任务提供了首个专门化的评估基准与训练资源。

当前挑战

S-HArM数据集面临的核心挑战在于意图分类的语义复杂性：需从视觉与文本模态中提取抽象意图特征（如讽刺与恶意的微妙区别），而现有模型在跨模态推理与上下文理解方面存在显著局限。构建过程中的挑战包括真实错误信息样本的稀缺性、社交媒体数据的噪声过滤，以及通过三种提示策略（图像引导、描述引导与多模态引导）生成合成数据时如何平衡视觉保真度与语义一致性。此外，模型在合成数据上表现优异（96.6%准确率）但泛化至真实场景时性能下降（最高71.6%），凸显了分布偏移与领域适应性问题的严峻性。

常用场景

经典使用场景

在数字媒体内容安全分析领域，S-HArM数据集被广泛用于训练和评估多模态意图感知分类模型。该数据集通过整合社交媒体平台中的图像-文本对，支持模型学习区分合成图像背后的创作意图，包括幽默讽刺、艺术表达和误导信息三类标签。研究者通常利用其提供的合成训练数据和真实场景评估基准，开发能够同时处理视觉与文本信号的分类架构，以应对日益复杂的AI生成内容检测挑战。

解决学术问题

S-HArM数据集解决了多模态合成内容意图识别这一前沿学术问题，填补了现有研究在意图感知层面的空白。传统方法多专注于二进制真伪分类或单模态特征分析，而该数据集通过引入三重分类框架和跨模态关联标注，推动了模型对抽象语义概念（如讽刺与误导的细微差异）的理解。其意义在于为多模态推理、生成对抗检测和社交媒体内容治理提供了关键数据支撑，促进了可信AI系统的发展。

衍生相关工作

S-HArM数据集衍生了多类经典研究工作，包括基于对比学习的跨模态对齐框架、重构网络用于潜在特征恢复，以及大型视觉-语言模型的零样本分类策略。例如，研究者利用其多模态引导生成策略开发了RED-DOT等注意力机制模型，提升了误导信息检测的鲁棒性。同时，该数据集的评估基准被广泛用于验证CLIP增强模型和自监督谱重构方法的泛化能力，推动了意图感知检测技术的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集