SEAR Dataset

Name: SEAR Dataset
Creator: 华中科技大学, 湖北大学, 都柏林城市大学
Published: 2025-05-30 18:46:13
License: 暂无描述

arXiv2025-05-30 更新2025-06-03 收录

下载链接：

https://github.com/INSLabCN/SEAR-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SEAR数据集是一个用于研究通过增强现实（AR）和多模态大型语言模型（LLMs）协调的社会工程（SE）攻击的新型多模态资源。该数据集捕捉了60名参与者之间180个被注释的对话，这些对话发生在模拟的对峙场景中，包括会议、课堂和网络活动。它包括同步的AR捕获的视觉/音频线索（例如，面部表情、语调）、环境背景和经过编辑的社交媒体资料，以及主观指标，如信任评级和易受攻击性评估。SEAR数据集支持研究AR驱动的社会工程攻击检测、防御框架设计以及对多模态对抗性操纵的理解。SEAR数据集可在https://github.com/INSLabCN/SEAR-Dataset获取。

The SEAR Dataset is a novel multimodal resource for researching social engineering (SE) attacks coordinated via Augmented Reality (AR) and multimodal Large Language Models (LLMs). This dataset captures 180 annotated dialogues between 60 participants, occurring in simulated confrontational scenarios including meetings, classrooms, and online activities. It includes synchronized visual/audio cues captured via AR, such as facial expressions and intonation, environmental contexts, curated social media profiles, as well as subjective metrics including trust ratings and vulnerability assessments. The SEAR Dataset supports research on AR-driven social engineering attack detection, defensive framework design, and understanding of multimodal adversarial manipulation. The SEAR Dataset is available at https://github.com/INSLabCN/SEAR-Dataset.

提供机构：

华中科技大学, 湖北大学, 都柏林城市大学

创建时间：

2025-05-30

原始信息汇总

SEAR-Dataset 概述

数据集简介

SEAR-Dataset是一个新颖的多模态资源，旨在研究通过增强现实（AR）和多模态大型语言模型（LLMs）策划的社会工程（SE）攻击这一新兴威胁。

数据集特点

多模态资源
专注于社会工程攻击研究
涉及增强现实（AR）技术
包含多模态大型语言模型（LLMs）相关数据

研究领域

社会工程攻击
增强现实安全
多模态大型语言模型应用安全

搜集汇总

数据集介绍

构建方式

SEAR数据集通过精心设计的实验框架构建，涵盖了60名参与者在模拟社交场景中的180次标注对话。研究采用RayNeo X2 AR眼镜和Gemma 3-12B多模态大语言模型，实时捕获面部表情、语音语调等环境线索，并结合社交媒体资料构建目标画像。数据采集过程遵循严格的伦理审查标准，所有个人信息均经过匿名化处理，确保符合数据保护规范。

特点

该数据集的核心价值在于其多模态特性，同步整合了AR视觉/听觉数据、环境上下文、LLM生成对话及主观信任评估等多维信息。特别值得注意的是，数据集揭示了AR-LLM驱动社会工程攻击的高效性，93.3%的钓鱼链接点击率和76.7%的信任度提升等实证数据，为研究新型混合威胁提供了独特视角。每个交互案例包含完整的对话场景记录、社交画像分析及事后问卷调查，形成闭环研究体系。

使用方法

研究者可通过数据集官网获取标准化数据包，其中结构化存储着五类核心组件：对话场景的AR视频/音频、个人社交媒体数据、LLM生成画像、完整交互记录及主观评估指标。建议使用流程包括：首先基于场景视频分析非语言线索，继而结合对话文本与社交画像研究信任建立机制，最后通过问卷数据验证攻击有效性。该数据集特别适用于开发AR环境下的社会工程检测算法，以及设计防御性AI框架等跨学科研究。

背景与挑战

背景概述

SEAR数据集由华中科技大学、湖北大学和都柏林城市大学的研究团队于2025年联合发布，旨在研究增强现实（AR）与多模态大语言模型（LLMs）驱动的社会工程攻击行为。该数据集通过模拟会议、课堂和社交活动等场景，收集了60名参与者的180段标注对话，包含同步的AR视觉/音频数据、环境上下文及社交媒体资料等多模态信息。作为首个系统整合AR感知数据与LLM生成对话的资源，SEAR填补了传统单模态社会工程研究在动态环境交互分析上的空白，为人机交互安全和对抗性攻击检测提供了重要基准。

当前挑战

SEAR数据集面临的核心挑战体现在两个维度：在领域问题层面，需解决AR-LLM融合环境下社会工程攻击的高隐蔽性问题，包括实时面部表情解析、语境化语音生成等跨模态欺骗策略的识别；在构建层面，涉及多源异构数据（如3D动作捕捉、声纹特征、社交媒体元数据）的时空对齐难题，以及伦理审查框架下攻击模拟实验的设计平衡。数据集标注需精确捕捉93.3%钓鱼链接点击率等行为指标与76.7%信任度变化的因果关系，这对多模态特征融合与主观评估的量化提出了极高要求。

常用场景

经典使用场景

SEAR数据集在增强现实（AR）和多模态大语言模型（LLM）驱动的社交工程攻击研究中具有重要应用。通过模拟会议、课堂和社交活动等场景，数据集捕捉了180个标注对话，涵盖60名参与者的多模态交互数据，包括面部表情、语音语调、环境背景和社交媒体资料。这些数据为研究AR-LLM技术在社交工程攻击中的动态适应性和实时行为分析提供了丰富资源，成为该领域的重要基准。

衍生相关工作

SEAR数据集催生了多项关于AR安全与多模态攻击检测的衍生研究。例如，部分工作基于其信任劫持数据开发了对抗性LLM对话识别算法，另一些研究则利用其AR环境标注优化了隐私保护渲染技术。数据集还启发了跨模态攻击策略分析框架的构建，如结合面部微表情与语音特征的信任度预测模型，进一步拓展了社交工程行为研究的维度。

数据集最近研究