five

R3-VQA|视频问答数据集|社交推理数据集

收藏
arXiv2025-05-07 更新2025-05-09 收录
视频问答
社交推理
下载链接:
https://arxiv.org/pdf/2505.04147v1
下载链接
链接失效反馈
资源简介:
R3-VQA是一个视频问答数据集,由北京大学、西安交通大学等机构的研究者共同创建。数据集包含复杂的社交场景,并对社交事件和心智状态(如信念、意图、欲望、情绪)及其相应的社交因果链进行了精确和细粒度的标注。此外,数据集还包括人工标注和模型生成的问答对。R3-VQA任务包括社交事件理解、心智状态估计和社会因果推理三个方面。该数据集旨在评估当前最先进的视觉语言模型在复杂社交场景中的社交推理能力和一致性,并展示LVLMs在社交推理任务上的局限性以及心智理论提示对LVLMs性能的提升。
提供机构:
北京大学、西安交通大学、北京通用人工智能研究院、清华大学、加州大学洛杉矶分校、MIT-IBM沃森人工智能实验室
创建时间:
2025-05-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
R3-VQA数据集通过多阶段流程构建,包括人类数据收集、验证、因果链标注与验证、QA生成及验证。首先,通过在线平台收集包含视频片段、QA对和解释的数据样本,确保挑战现有模型的能力。随后,专家团队对数据进行严格验证,剔除不符合标准的内容。接着,专家标注因果链,涵盖事件节点和多种心理状态(信念、意图、欲望、情感),并通过协商确定最终版本。最后,利用GPT-4o生成多样化的QA对,并由专家验证其合理性和准确性。
特点
R3-VQA数据集以其复杂的社会推理任务和精细的标注著称。该数据集包含316个视频片段,每个片段标注了多步因果链和动态心理状态(如信念、意图、欲望、情感)。其特点包括:1)完整的社交因果链标注,支持多步推理;2)结合人类设计和模型生成的QA对,涵盖事件理解、心理状态估计和因果推理任务;3)视频平均时长达66.6秒,增加了社会推理的挑战性。此外,数据集还提供了链一致性和子链一致性指标,用于评估模型推理的连贯性。
使用方法
R3-VQA数据集适用于评估大规模视觉语言模型(LVLM)的社会推理能力。使用时,模型接收视频或采样帧、问题及五个选项,需选择正确答案。任务涵盖三类:1)事件理解(EU),要求模型识别视频中的具体事件;2)心理状态估计(MSE),推断角色的信念、意图等;3)因果推理(CW/CH/W),分析事件与心理状态间的因果关系。用户可通过链一致性和子链一致性指标,量化模型对复杂社交互动的理解深度。此外,结合字幕和启发式心理理论提示(ToM prompting)可进一步提升模型表现。
背景与挑战
背景概述
R3-VQA(Read-the-Room Reasoning for Video Question Answering)是由北京大学、西安交通大学、北京通用人工智能研究院等机构的研究团队于2025年提出的视频问答数据集,旨在推动复杂社交场景中的多模态社会推理研究。该数据集基于心理理论(Theory of Mind)和BDI(Belief-Desire-Intention)框架,通过标注社交事件、心理状态(信念、意图、欲望、情感)及其因果链,填补了现有社交推理数据在动态交互和复杂心智状态建模上的空白。其创新性体现为:首次在真实社交视频中系统标注多步社会因果链,并融合人类标注与模型生成的问答对,为评估大视觉语言模型(LVLM)的社会智能提供了首个综合性基准。
当前挑战
R3-VQA针对两大核心挑战展开:1) 领域问题层面,解决长时序动态社交交互中隐含心智状态的推理难题,包括从细微社交线索(如微表情、手势)识别社交事件、追踪多变量心理状态演变、解构物理-心智世界的复杂因果链;2) 构建过程中需克服标注复杂性,包括视频场景的高随机性导致因果链标注歧义、多模态线索(视觉/语言/音频)的同步对齐,以及确保1201个心智状态节点与1406个子因果链的逻辑一致性。实验表明,现有LVLM在链式一致性指标(Consc=29.39%)上显著落后人类水平(66.20%),凸显社会推理仍是AI亟待突破的瓶颈。
常用场景
经典使用场景
R3-VQA数据集在社交推理领域具有广泛的应用价值,尤其在视频问答(VideoQA)任务中表现出色。该数据集通过精细标注的社交事件和心智状态(如信念、意图、欲望和情感),以及复杂的社交因果链,为研究者提供了一个全面的基准测试平台。其经典使用场景包括社交事件理解、心智状态估计和社交因果推理,这些任务在多模态社交智能研究中占据核心地位。
衍生相关工作
R3-VQA数据集已经催生了一系列相关研究工作。在模型架构方面,研究者们开发了多种融合多模态信息的社交推理模型,如基于注意力机制的因果推理框架。在评估方法上,该数据集启发了新的社交推理一致性指标,如链式一致性和子链一致性。此外,围绕该数据集还出现了多种ToM提示技术,这些方法显著提升了LVLMs在复杂社交场景中的表现。数据集也促进了跨学科研究,推动了认知科学与人工智能的深度融合。
数据集最近研究
最新研究方向
近年来,R3-VQA数据集在社交推理领域引起了广泛关注,特别是在视频社交推理(Video Social Reasoning)方面。该数据集通过精细标注的社交事件和心智状态(如信念、意图、欲望和情感)以及社交因果链,为复杂社交场景中的推理任务提供了全面的基准。前沿研究主要集中在提升大型视觉语言模型(LVLMs)的社交推理能力,尤其是在多模态信号融合和心智理论(Theory of Mind, ToM)提示的应用上。热点事件包括利用ToM提示增强模型在复杂社交互动中的表现,以及通过多步因果推理任务评估模型的推理一致性。R3-VQA的影响和意义在于填补了现有社交推理数据集的不足,为人工智能在社交智能领域的发展提供了重要工具,同时也揭示了当前LVLMs与人类水平社交推理之间的显著差距。
相关研究论文
  • 1
    R^3-VQA: "Read the Room" by Video Social Reasoning北京大学、西安交通大学、北京通用人工智能研究院、清华大学、加州大学洛杉矶分校、MIT-IBM沃森人工智能实验室 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

LogiQA

LogiQA 包含 8,678 个 QA 实例,涵盖多种类型的演绎推理。结果表明,最先进的神经模型的性能远远低于人类天花板。该数据集还可以作为在深度学习 NLP 设置下重新研究逻辑 AI 的基准。

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录