MovieCORE
收藏arXiv2025-08-26 更新2025-08-28 收录
下载链接:
https://joslefaure.github.io/assets/html/moviecore.html
下载链接
链接失效反馈官方服务:
资源简介:
MovieCORE是一个视频问答(VQA)数据集,旨在探索电影内容的更深层次理解。与现有的主要关注表面理解的数据集不同,MovieCORE强调的问题能够激发系统2思考,同时保持与视频内容的紧密关联。我们提出了一个创新的代理式头脑风暴方法,利用多个大型语言模型(LLMs)作为思考代理来生成和改进高质量的问答对。为了评估数据集的质量,我们开发了一套认知测试,以评估深度、思考激发潜力和句法复杂性。我们还提出了一套全面的评估方案,以评估VQA模型在更深入的认知任务上的性能。为了解决现有视频语言模型(VLMs)的局限性,我们引入了一个代理增强模块,代理选择增强(ACE),该模块通过25%的改进,提高了模型推理能力。我们的工作有助于推进AI系统中对电影的理解,并为我们提供了当前VQA模型在面对更具挑战性的电影内容时能力和局限性的宝贵见解。
MovieCORE is a video question answering (VQA) dataset developed to explore deeper understanding of movie content. Unlike existing datasets that primarily focus on surface-level comprehension, MovieCORE centers on questions that elicit System 2 thinking while remaining closely tied to the video content. We propose an innovative agent-guided brainstorming approach that utilizes multiple large language models (LLMs) as thinking agents to generate and refine high-quality question-answer pairs. To assess the dataset's quality, we have developed a suite of cognitive tests to evaluate its depth, thinking-elicitation potential, and syntactic complexity. We also present a comprehensive evaluation framework to measure the performance of VQA models on more in-depth cognitive tasks. To address the limitations of current video-language models (VLMs), we introduce an agent-augmented module called Agent Choice Enhancement (ACE), which achieves a 25% improvement in model reasoning performance. Our work contributes to advancing movie understanding in AI systems, and provides valuable insights into the capabilities and limitations of existing VQA models when confronted with more challenging movie content.
提供机构:
台湾大学、英伟达、清华大学、政治大学
创建时间:
2025-08-26
原始信息汇总
MovieCORE: COgnitive REasoning in Movies
概述
MovieCORE是一个新颖的视频问答(VQA)数据集,专门设计用于探究对电影内容的深层认知理解。与现有专注于表层理解的数据集不同,MovieCORE强调激发思考的问题,涉及系统2思维,同时保持与视频材料的具体关联。
关键特性
- 认知深度:数据集优先考虑系统2思维,导致问答对具有更高的深度。
- 语义丰富性:相比其他数据集,MovieCORE在语义丰富性和深度方面表现突出。
- 高质量标注:采用多智能体头脑风暴方法,利用多个大型语言模型(LLMs)作为思维智能体生成和精炼高质量的问答对。
标注方法
- 智能体标注工作流:批评家智能体作为主持人,利用视频上下文和任务指令协调专业智能体之间的交互。依次与系统II VQA专家、怀疑研究者、侦探和元评审员互动,在每个阶段积累见解。
- 人工验证:精炼后的VQA子集由人类专家评估进行最终验证。
评估与比较
- 评估方案:提出综合评估方案,用于评估VQA模型在更深层认知任务上的性能。
- 性能比较:评估各种开源和专有视觉语言模型(VLMs)在五个标准上的表现:准确性、全面性、深度、证据和连贯性。
资源
- 论文:https://arxiv.org/abs/2508.19026
- 代码:公开可用
- 数据集:代理标注系统、数据集及其元数据将公开提供
作者与机构
- Gueter Josmy Faure(国立台湾大学)
- Min-Hung Chen(NVIDIA)
- Jia-Fong Yeh(国立台湾大学)
- Ying Cheng(国立清华大学)
- Hung-Ting Su(国立台湾大学)
- Yung-Hao Tang(国立政治大学)
- Winston H. Hsu(国立台湾大学、Mobile Drive Technology)
- Shang-Hong Lai(国立清华大学)
会议
- EMNLP 2025主会议
搜集汇总
数据集介绍

构建方式
在电影理解研究领域,MovieCORE采用创新的多智能体标注框架构建数据集。该方法首先通过MiniCPM-v2.6模型从986个电影片段中提取多维视频上下文信息,包括叙事结构、情感基调和角色动态等关键要素。随后部署由批判智能体协调的LLM专家系统,包括系统二VQA专家、怀疑研究员和侦探智能体,通过多轮辩论和证据验证机制生成高质量问答对。最终通过人类专家对150个问答对的四维评估(相关性、清晰度、深度和可答性)确保数据质量,平均得分超过3.8分。
特点
MovieCORE的核心特征体现在其认知深度和语言复杂性。该数据集包含4930个专门设计用于激发系统二思维的问答对,其解析树深度达到5.88,显著超越EgoSchema的5.47。通过布鲁姆分类法评估显示,99.2%的问题要求分析、评估和创造等高阶认知技能,平均认知层级达到4.9。数据集特别强调情感推理、角色动机分析和因果推断能力,问题设计涵盖移情反应、心理状态转变和代际主题等深层电影理解维度,为VLMs提供了挑战表面理解的测试平台。
使用方法
该数据集支持零样本和全监督两种评估模式,需结合特定视频片段进行多维度推理。使用时首先输入10分钟左右的电影片段,模型需要解析视觉叙事元素并回答涉及情感演变、符号意义和角色关系等深层认知问题。评估采用五维指标体系:准确性衡量语义匹配度,深度评估分析洞察力,全面性考察要点覆盖,连贯性检验逻辑组织,证据维度评判视觉依据的质量。针对性能提升,可集成Agentic Choice Enhancement模块,通过Llama-3.2模型对5个候选答案进行重排序,实现最高25%的相对性能提升。
背景与挑战
背景概述
MovieCORE数据集由国立台湾大学、英伟达及清华大学等机构的研究团队于2025年联合推出,旨在推动视频问答系统在电影认知理解领域的深度发展。该数据集聚焦于系统二思维(System-2 thinking)的激发,要求模型对电影内容进行缓慢、逻辑严密的深层推理,涵盖情感交互、角色动态与因果关联等复杂认知维度。其创新性体现在采用多智能体协同标注框架,通过大型语言模型作为思维代理生成高质量问答对,显著提升了现有视频语言模型在叙事理解和心理复杂性分析方面的性能表现。
当前挑战
MovieCORE致力于解决电影深层认知理解问题,其核心挑战在于如何使模型超越表层描述,实现对情感演变、角色动机及因果推理等抽象概念的解析。构建过程中面临多重挑战:一是需平衡主观性问答的开放性与答案的客观性,确保问题既具思辨性又忠于视频内容;二是多智能体标注流程需协调不同代理的专长领域,避免生成冗余或冲突的标注;三是验证标注质量时需克服自动化评估对语义深度和证据关联性的量化困难,依赖人工审核确保逻辑一致性与内容忠实度。
常用场景
经典使用场景
在电影理解与认知推理研究领域,MovieCORE数据集被广泛用于评估视频语言模型在深层认知任务中的表现。该数据集通过精心设计的问答对,要求模型分析电影中角色的心理状态、情感演变及因果关系,从而推动系统二思维(System-2 thinking)的应用。研究者利用该数据集测试模型对电影叙事中隐含主题、符号化对象及代际动态的解读能力,例如通过窗口和放大镜等象征物探讨老年角色的心路历程。
解决学术问题
MovieCORE解决了现有视频问答数据集仅关注表面理解而忽视深层认知推理的学术空白。它针对电影内容中的情感交互、心理复杂性和因果关联等维度,提供了系统性的评估框架。该数据集通过引入高阶认知问题(如“为什么”和“如何”类问题),促进了视频语言模型在分析、评估和创造等布鲁姆分类高阶能力上的发展,填补了电影理解中缺乏主观性和多维度推理研究的不足。
衍生相关工作
MovieCORE催生了多项经典研究工作,其中最具代表性的是代理增强模块ACE(Agentic Choice Enhancement),该模块通过轻量级后生成优化策略将模型推理能力提升高达25%。此外,基于该数据集的多智能体标注框架启发了后续研究如Agent-VQA和CineReasoner,这些工作进一步扩展了视频认知推理的边界,并在模型架构设计、评估协议和跨模态理解方面产生了深远影响。
以上内容由遇见数据集搜集并总结生成



