S-HArM
收藏arXiv2025-08-28 更新2025-08-30 收录
下载链接:
https://github.com/Qedrigord/SHARM
下载链接
链接失效反馈官方服务:
资源简介:
S-HArM数据集是一个多模态数据集,用于识别AI生成图像的意图。该数据集包含来自Twitter/X和Reddit的9576个图像-文本对,被标记为幽默/讽刺、艺术或虚假信息。此外,该数据集还探索了三种提示策略,以构建大规模的合成训练数据集。
提供机构:
亚里士多德大学塞萨洛尼基分校电子与计算机工程学院,信息技术研究所,研究中心
创建时间:
2025-08-28
原始信息汇总
S-HARM 数据集概述
数据集基本信息
- 名称:S-HARM
- 来源:Twitter/X 和 Reddit
- 数据规模:9,576 个图像-文本对
- 数据类型:多模态(图像和文本)
- 数据标签:幽默/讽刺(Humor/Satire)、艺术(Art)、错误信息(Misinformation)
研究背景
该数据集为意图感知分类的多模态数据集,专注于检测合成图像和上下文无关内容背后的意图。现有工作大多忽略AI生成图像背后的意图,此数据集旨在填补该空白。
数据生成方法
采用三种提示策略构建大规模合成训练数据集:
- 图像引导(image-guided)
- 描述引导(description-guided)
- 多模态引导(multimodally-guided)
使用Stable Diffusion生成合成数据。
实验内容
进行了广泛的比较研究,包括:
- 模态融合
- 对比学习
- 重建网络
- 注意力机制
- 大型视觉语言模型
主要发现
- 在图像和多模态引导数据上训练的模型对“野外”内容泛化能力更好,原因是保留了视觉上下文
- 整体性能仍然有限,凸显了推断意图的复杂性及对专用架构的需求
数据集结构
- scraping:用于从Twitter和Reddit挖掘和过滤数据的脚本
- generation:用于生成3种不同训练集的代码
- train data features:训练集的图像和文本特征表示
- test data features:测试样本的特征表示
- test data links:测试集使用的原始帖子链接
- experiments:所有训练和评估实验代码
许可信息
本项目采用Apache License 2.0许可。详细信息见:https://github.com/Qedrigord/SHARM/blob/main/LICENSE
联系方式
Stefanos-Iordanis Papadopoulos (stefpapad@iti.gr)
资助信息
- Horizon Europe项目"DisAI"(资助协议号:101079164)
- Horizon Europe项目"vera.ai"(资助协议号:101070093)
- Horizon Europe项目"AI-CODE"(资助协议号:101135437)
- 塞萨洛尼基亚里士多德大学(AUTh)IT中心提供的计算资源支持
搜集汇总
数据集介绍

构建方式
在数字媒体内容真实性验证领域,S-HArM数据集的构建采用了双轨策略。其评估基准源自社交媒体平台Twitter和Reddit的真实场景数据,通过社区标注机制(如Twitter的Community Notes)和主题子论坛筛选,共收集9,576对图像-文本样本,并经过人工验证确保类别平衡。训练集则通过Stable Diffusion XL模型对真实图像进行三种提示策略的合成生成:图像引导生成保留原视觉上下文,描述引导生成依赖BLIP模型生成文本提示,多模态引导则融合图像与文本输入,最终形成每类87,522个样本的均衡训练数据。
特点
该数据集的核心特点在于其意图感知的多模态架构。区别于传统二分类合成检测数据集,S-HArM支持幽默/讽刺、艺术与 misinformation 的三元分类,更贴近实际应用场景的复杂性。其评估基准全部来自真实网络环境,涵盖不同生成模型产生的异构数据,而训练集通过可控的生成策略引入多样化合成特征。多模态耦合机制确保视觉与文本信号的协同分析,例如图像引导生成样本保留更多视觉一致性,而描述引导生成则凸显文本语义主导的生成特征。
使用方法
S-HArM支持端到端的意图感知分类研究,包括单模态与多模态模型的对比验证。研究者可基于其训练集开展跨模态融合、对比学习或重构网络等实验,并通过评估基准测试模型在真实场景中的泛化能力。数据集设计特别强调文本与图像的联合推理,例如使用拼接特征(concatenation)的MLP分类器可达71.6%准确率。此外,该数据集适用于零样本的大视觉语言模型测试,通过分阶段提示策略(如两阶段分类提示)探索模型对抽象意图概念的理解能力。
背景与挑战
背景概述
随着生成式人工智能技术的迅猛发展,合成图像在数字媒体中的泛滥引发了对其潜在滥用风险的广泛关注。2025年,塞萨洛尼基亚里士多德大学的研究团队推出了S-HArM数据集,旨在填补现有研究在意图识别领域的空白。该数据集聚焦于多模态环境下AI生成图像的意图分类问题,涵盖幽默讽刺、艺术创作与错误信息三大类别,通过整合社交媒体平台的真实数据与基于Stable Diffusion生成的合成样本,为意图感知分类任务提供了首个专门化的评估基准与训练资源。
当前挑战
S-HArM数据集面临的核心挑战在于意图分类的语义复杂性:需从视觉与文本模态中提取抽象意图特征(如讽刺与恶意的微妙区别),而现有模型在跨模态推理与上下文理解方面存在显著局限。构建过程中的挑战包括真实错误信息样本的稀缺性、社交媒体数据的噪声过滤,以及通过三种提示策略(图像引导、描述引导与多模态引导)生成合成数据时如何平衡视觉保真度与语义一致性。此外,模型在合成数据上表现优异(96.6%准确率)但泛化至真实场景时性能下降(最高71.6%),凸显了分布偏移与领域适应性问题的严峻性。
常用场景
经典使用场景
在数字媒体内容安全分析领域,S-HArM数据集被广泛用于训练和评估多模态意图感知分类模型。该数据集通过整合社交媒体平台中的图像-文本对,支持模型学习区分合成图像背后的创作意图,包括幽默讽刺、艺术表达和误导信息三类标签。研究者通常利用其提供的合成训练数据和真实场景评估基准,开发能够同时处理视觉与文本信号的分类架构,以应对日益复杂的AI生成内容检测挑战。
解决学术问题
S-HArM数据集解决了多模态合成内容意图识别这一前沿学术问题,填补了现有研究在意图感知层面的空白。传统方法多专注于二进制真伪分类或单模态特征分析,而该数据集通过引入三重分类框架和跨模态关联标注,推动了模型对抽象语义概念(如讽刺与误导的细微差异)的理解。其意义在于为多模态推理、生成对抗检测和社交媒体内容治理提供了关键数据支撑,促进了可信AI系统的发展。
衍生相关工作
S-HArM数据集衍生了多类经典研究工作,包括基于对比学习的跨模态对齐框架、重构网络用于潜在特征恢复,以及大型视觉-语言模型的零样本分类策略。例如,研究者利用其多模态引导生成策略开发了RED-DOT等注意力机制模型,提升了误导信息检测的鲁棒性。同时,该数据集的评估基准被广泛用于验证CLIP增强模型和自监督谱重构方法的泛化能力,推动了意图感知检测技术的标准化进程。
以上内容由遇见数据集搜集并总结生成



