MISID

Name: MISID
Creator: 香港中文大学·深圳; 首都师范大学
Published: 2026-04-14 21:07:54
License: 暂无描述

arXiv2026-04-14 更新2026-04-17 收录

下载链接：

https://naislab.cn/datasets/MISID

下载链接

链接失效反馈

官方服务：

资源简介：

MISID是一个多模态、多轮次、多参与者的复杂意图识别数据集，由香港中文大学·深圳和首都师范大学联合创建。该数据集包含3962条高质量的话语片段，涵盖120个角色特定的实例，数据来源于高压社交策略游戏的公开视频，并经过严格的时序对齐和标注处理。数据集采用两层级多维标注方案，从基础情感分析到跨模态不一致性检测，旨在支持基于证据的因果推理。MISID主要应用于人工智能社交智能领域，旨在解决复杂战略环境中隐藏意图识别和欺骗检测的挑战。

MISID is a multimodal, multi-turn, multi-participant complex intent recognition dataset co-developed by The Chinese University of Hong Kong, Shenzhen and Capital Normal University. It contains 3,962 high-quality utterance fragments covering 120 role-specific instances. The data is sourced from public videos of high-stakes social strategy games and has undergone rigorous temporal alignment and annotation processing. The dataset adopts a two-tier, multi-dimensional annotation framework ranging from basic sentiment analysis to cross-modal inconsistency detection, aiming to support evidence-based causal reasoning. MISID is primarily applied in the field of AI social intelligence, targeting the challenges of hidden intent recognition and deception detection in complex strategic environments.

提供机构：

香港中文大学·深圳; 首都师范大学

创建时间：

2026-04-14

原始信息汇总

MISID数据集概述

数据集基本信息

数据集名称：MISID: A Multimodal Multi-turn Dataset for Complex Intent Recognition in Strategic Deception Games
主要作者：Shufang Lin, Muyang Chen, Xiabing Zhou, Rongrong Zhang, Dayou Zhang, Fangxin Wang
机构：The Chinese University of Hong Kong, Shenzhen; Capital Normal University
论文状态：Under Review (2026)

数据集简介

MISID是一个用于复杂意图识别的综合性多模态、多轮次、多参与者基准数据集。它旨在解决复杂多轮交互中理解人类意图的挑战，特别关注涉及长期复杂欺骗性叙事的战略性互动场景。

数据集规模

语音片段数量：3,962
总时长：9.15小时
参与者数量：15
平均每局游戏话语数：374.7

核心特征

复杂的战略环境：数据来源于涉及欺骗、推理和基于投票淘汰机制的高压社交策略游戏。
多轮次动态性：捕捉基于关键事实的意图在长时间交互中的动态演变，话语片段范围从154到555轮。
基于事实的因果标注：将学习目标从表面猜测转向基于明确标注的历史硬证据追踪复杂推导链。
多模态同步：包含精确同步的视频和音频模态，捕捉细微的跨模态泄露。

标注方案

标注层级

第一层：话语级别：记录单个话语的基础背景指标，包括参与者身份、基本情绪状态、情绪强度以及主客观性分析。
第二层：轮次级别：针对长距离多模态话语分析，标注关键战略事件、置信度分数以及模态不一致性。
基于事实的推理范式：结合两个层级的标注与真实情况，精确定位关键上下文线索，指导模型重建逻辑链并推断欺骗行为。

与现有数据集的比较

MISID在深度、多模态支持、战略环境、基于事实的因果标注以及轮次长度方面，相较于现有数据集（如MCIC、SLURP、MIntRec、MECPE、Genesis、CSC、Bag-of-Lies、MELD、CraigslistBargain、IntentQA、Diplomacy）提供了前所未有的组合优势。

基准框架

框架名称：FRACTAM
核心范式："Decouple-Anchor-Reason"
- 阶段1：单模态事实解耦：独立解码视觉和音频信号为客观事实文本描述。
- 阶段2：混合长距离事实锚定：通过双阶段召回机制从数百轮的历史噪声中分离稀疏因果变量。
- 阶段3：证据链推理：构建显式的跨模态因果链，并基于此生成最终事实判定和隐藏意图分析。

资源链接

论文：https://naislab.cn/datasets/MISID
数据集：Hugging Face
代码：GitHub
引用格式：BibTeX

引用信息

@inproceedings{lin2026misid, title={MISID: A Multimodal Multi-turn Dataset for Complex Intent Recognition in Strategic Deception Games}, author={Lin, Shufang and Chen, Muyang and Zhou, Xiabing and Zhang, Rongrong and Zhang, Dayou and Wang, Fangxin}, booktitle={Under Review}, year={2026}, }

搜集汇总

数据集介绍

构建方式

在复杂意图识别领域，现有数据集多聚焦于单轮或浅层对话，难以捕捉真实世界中多轮、多模态且充满策略性隐瞒的交互。MISID数据集以高压力社交策略游戏为背景，通过采集公开在线视频构建而成。其构建过程涉及音频标准化至16kHz单声道PCM格式，并利用Pyannote进行说话人日志分析，辅以多维过滤与人工校正。视觉模态则采用人脸检测与基于DBSCAN的身份聚类技术，确保与音频严格时间对齐。最终形成包含3,962个高质量话语片段的多模态语料库，涵盖15名参与者的120个角色实例，为长上下文分析提供了坚实基础。

特点

MISID数据集的核心特点在于其多层次、多维度的标注体系。该体系包含两个层级：第一层记录话语级微观状态，如角色身份、基本情感、强度及主观性；第二层则专注于话语分析，标注关键事件、置信度及模态不一致性，从而建立跨模态与多轮次的事实推理链。此外，数据集引入了基于事实的因果推理范式，通过精确定位历史关键线索，引导模型重构逻辑链以推断参与者的欺骗行为与隐藏意图。这种设计使得MISID能够有效捕捉策略性交互中的信息密度与动态演化，为模型提供了从表层语义理解向深层因果推理转变的评估平台。

使用方法

MISID数据集的使用旨在推动多模态大语言模型在复杂社交场景下的评估与改进。用户可通过其提供的双阶段评估任务进行模型测试：第一阶段侧重于基础状态识别，如情感状态、角色判断与欺骗检测；第二阶段则要求模型进行基于事实的推理，包括身份推理、谎言细节分析与隐藏意图推断。为应对现有模型在长程因果线索串联与模态协同上的局限，数据集配套提出了FRACTAM基准框架。该框架采用“解耦-锚定-推理”范式，通过提取单模态事实表征、两阶段长程事实锚定及构建显式跨模态证据链，有效缓解文本先验幻觉并增强推理的稳健性，为后续研究提供了结构化方法论。

背景与挑战

背景概述

在人工智能迈向真实社会智能的进程中，理解复杂多轮交互中的人类意图是一项基础性挑战。现有意图识别数据集多聚焦于单轮话语或简单对话，难以捕捉现实世界中参与者需在长时间互动中维持复杂欺骗性叙事的策略性场景。为填补这一空白，香港中文大学（深圳）与首都师范大学的研究团队于2026年联合推出了MISID数据集。该数据集源自高压社交策略游戏，包含3,962条高质量、多模态对齐的话语片段，并首创了细粒度的双层多维度标注体系，旨在推动基于证据的因果推理研究，为评估模型在隐蔽意图识别与长程上下文分析方面的能力设立了新基准。

当前挑战

MISID数据集致力于解决复杂策略性交互中的隐藏意图识别问题，其核心挑战在于穿透表面表达以感知动态演化的真实心理状态。具体而言，领域问题层面的挑战体现为模型需在信息高度不对称的环境中，克服文本先验导致的视觉幻觉、受损的跨模态协同能力，以及连接稀疏因果线索的长程推理局限。在构建过程中，挑战则集中于如何从嘈杂的多参与者、多轮次互动中，精确实现音视频模态的时序对齐，并设计出能够同时捕捉微观话语状态与宏观话语逻辑、且能标注跨模态不一致性的多层次标注框架，以确保数据能支撑严格的证据链推理。

常用场景

经典使用场景

在复杂社会交互与行为分析领域，MISID数据集最经典的使用场景是作为评估多模态大语言模型在战略欺骗游戏中识别隐藏意图能力的基准。该数据集通过模拟高压力、信息不完全的社交策略游戏环境，构建了包含多参与者、多轮次对话的复杂交互场景。研究者利用其精细的多维度标注体系，能够系统性地测试模型在跨模态不一致性检测、长程因果线索追踪以及事实基础推理等方面的性能，从而深入探究人工智能在理解人类复杂社会性意图时的瓶颈与局限。

实际应用

在实际应用层面，MISID数据集所支撑的技术能力具有广泛的应用前景。其核心价值在于提升智能系统在复杂人机交互场景中的意图理解与应对能力。例如，在自动化谈判系统、智能客服对话管理、在线内容审核以及安全领域的欺骗行为检测中，系统需要准确识别对话方的真实动机与策略。MISID提供的多轮次、多模态战略交互数据，能够用于训练和优化相关模型，使其在信息不完全、存在策略性隐瞒的真实世界场景中做出更精准的判断和决策。

衍生相关工作

围绕MISID数据集，研究者们已经开展了一系列具有影响力的衍生工作。最具代表性的是其配套提出的FRACTAM框架，该框架采用“解耦-锚定-推理”范式，旨在解决数据集评测中暴露的模型缺陷，如文本先验视觉幻觉和模态协同受损等问题。此外，该数据集也催生了对多模态大模型在战略推理场景下能力边界的新一轮系统性评估，推动了针对长程因果线索整合、跨模态证据链构建等方向的方法学研究，为人工社会智能领域的模型架构设计与评测标准树立了新的基线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集