R3-VQA

Name: R3-VQA
Creator: 北京大学、西安交通大学、北京通用人工智能研究院、清华大学、加州大学洛杉矶分校、MIT-IBM沃森人工智能实验室
Published: 2025-05-07 13:55:45
License: 暂无描述

arXiv2025-05-07 更新2025-05-09 收录

下载链接：

https://arxiv.org/pdf/2505.04147v1

下载链接

链接失效反馈

官方服务：

资源简介：

R3-VQA是一个视频问答数据集，由北京大学、西安交通大学等机构的研究者共同创建。数据集包含复杂的社交场景，并对社交事件和心智状态（如信念、意图、欲望、情绪）及其相应的社交因果链进行了精确和细粒度的标注。此外，数据集还包括人工标注和模型生成的问答对。R3-VQA任务包括社交事件理解、心智状态估计和社会因果推理三个方面。该数据集旨在评估当前最先进的视觉语言模型在复杂社交场景中的社交推理能力和一致性，并展示LVLMs在社交推理任务上的局限性以及心智理论提示对LVLMs性能的提升。

R3-VQA is a video question answering (VQA) dataset co-created by researchers from Peking University, Xi'an Jiaotong University and other institutions. The dataset encompasses complex social scenarios, with precise and fine-grained annotations for social events, mental states (including beliefs, intentions, desires and emotions) and their corresponding social causal chains. Additionally, the dataset contains both manually annotated and model-generated question-answer pairs. The R3-VQA task covers three core aspects: social event understanding, mental state estimation and social causal reasoning. This dataset aims to evaluate the social reasoning ability and consistency of state-of-the-art vision-language models (LVLMs) in complex social scenarios, and to demonstrate the limitations of LVLMs on social reasoning tasks as well as the performance improvement of LVLMs brought by theory of mind prompts.

提供机构：

北京大学、西安交通大学、北京通用人工智能研究院、清华大学、加州大学洛杉矶分校、MIT-IBM沃森人工智能实验室

创建时间：

2025-05-07

搜集汇总

数据集介绍

构建方式

R3-VQA数据集通过多阶段流程构建，包括人类数据收集、验证、因果链标注与验证、QA生成及验证。首先，通过在线平台收集包含视频片段、QA对和解释的数据样本，确保挑战现有模型的能力。随后，专家团队对数据进行严格验证，剔除不符合标准的内容。接着，专家标注因果链，涵盖事件节点和多种心理状态（信念、意图、欲望、情感），并通过协商确定最终版本。最后，利用GPT-4o生成多样化的QA对，并由专家验证其合理性和准确性。

特点

R3-VQA数据集以其复杂的社会推理任务和精细的标注著称。该数据集包含316个视频片段，每个片段标注了多步因果链和动态心理状态（如信念、意图、欲望、情感）。其特点包括：1）完整的社交因果链标注，支持多步推理；2）结合人类设计和模型生成的QA对，涵盖事件理解、心理状态估计和因果推理任务；3）视频平均时长达66.6秒，增加了社会推理的挑战性。此外，数据集还提供了链一致性和子链一致性指标，用于评估模型推理的连贯性。

使用方法

R3-VQA数据集适用于评估大规模视觉语言模型（LVLM）的社会推理能力。使用时，模型接收视频或采样帧、问题及五个选项，需选择正确答案。任务涵盖三类：1）事件理解（EU），要求模型识别视频中的具体事件；2）心理状态估计（MSE），推断角色的信念、意图等；3）因果推理（CW/CH/W），分析事件与心理状态间的因果关系。用户可通过链一致性和子链一致性指标，量化模型对复杂社交互动的理解深度。此外，结合字幕和启发式心理理论提示（ToM prompting）可进一步提升模型表现。

背景与挑战

背景概述

R3-VQA（Read-the-Room Reasoning for Video Question Answering）是由北京大学、西安交通大学、北京通用人工智能研究院等机构的研究团队于2025年提出的视频问答数据集，旨在推动复杂社交场景中的多模态社会推理研究。该数据集基于心理理论（Theory of Mind）和BDI（Belief-Desire-Intention）框架，通过标注社交事件、心理状态（信念、意图、欲望、情感）及其因果链，填补了现有社交推理数据在动态交互和复杂心智状态建模上的空白。其创新性体现为：首次在真实社交视频中系统标注多步社会因果链，并融合人类标注与模型生成的问答对，为评估大视觉语言模型（LVLM）的社会智能提供了首个综合性基准。

当前挑战

R3-VQA针对两大核心挑战展开：1) 领域问题层面，解决长时序动态社交交互中隐含心智状态的推理难题，包括从细微社交线索（如微表情、手势）识别社交事件、追踪多变量心理状态演变、解构物理-心智世界的复杂因果链；2) 构建过程中需克服标注复杂性，包括视频场景的高随机性导致因果链标注歧义、多模态线索（视觉/语言/音频）的同步对齐，以及确保1201个心智状态节点与1406个子因果链的逻辑一致性。实验表明，现有LVLM在链式一致性指标（Consc=29.39%）上显著落后人类水平（66.20%），凸显社会推理仍是AI亟待突破的瓶颈。

常用场景

经典使用场景

R3-VQA数据集在社交推理领域具有广泛的应用价值，尤其在视频问答（VideoQA）任务中表现出色。该数据集通过精细标注的社交事件和心智状态（如信念、意图、欲望和情感），以及复杂的社交因果链，为研究者提供了一个全面的基准测试平台。其经典使用场景包括社交事件理解、心智状态估计和社交因果推理，这些任务在多模态社交智能研究中占据核心地位。

衍生相关工作

R3-VQA数据集已经催生了一系列相关研究工作。在模型架构方面，研究者们开发了多种融合多模态信息的社交推理模型，如基于注意力机制的因果推理框架。在评估方法上，该数据集启发了新的社交推理一致性指标，如链式一致性和子链一致性。此外，围绕该数据集还出现了多种ToM提示技术，这些方法显著提升了LVLMs在复杂社交场景中的表现。数据集也促进了跨学科研究，推动了认知科学与人工智能的深度融合。

数据集最近研究