five

MORSE-500

收藏
arXiv2025-06-06 更新2025-06-10 收录
下载链接:
https://huggingface.co/datasets/video-reasoning/morse-500
下载链接
链接失效反馈
官方服务:
资源简介:
MORSE-500是一个包含500个视频剪辑的多模态推理压力测试环境,每个剪辑中都嵌入了一个问题,涵盖了数学、抽象、空间、时间、物理和规划六个互补的推理类别。这些视频剪辑是通过编程生成的,允许对视觉复杂性、干扰密度和时态动态进行精细控制,从而可以系统地随着模型的改进来调整难度。MORSE-500旨在评估多模态推理模型在处理动态环境中的能力,并通过不断生成新的挑战实例来推动模型的持续进步。

MORSE-500 is a multimodal reasoning stress test environment consisting of 500 video clips. Each clip embeds a question covering six complementary reasoning categories: mathematics, abstraction, spatial reasoning, temporal reasoning, physical reasoning, and planning. These video clips are programmatically generated, allowing fine-grained control over visual complexity, distractor density, and temporal dynamics, thus enabling systematic adjustment of difficulty alongside model improvements. MORSE-500 is designed to evaluate the capabilities of multimodal reasoning models when handling dynamic environments, and drive the continuous progress of such models by continuously generating novel challenge instances.
提供机构:
马里兰大学帕克分校
创建时间:
2025-06-06
原始信息汇总

MORSE-500 Benchmark 数据集概述

基本信息

  • 语言: 英文 (en)
  • 许可证: CC-BY-4.0
  • 数据集名称: Morse-500
  • 规模分类: n<1K
  • 任务类别:
    • 视频分类 (video-classification)
    • 问答 (question-answering)
    • 视觉问答 (visual-question-answering)

关键特性

  • 新鲜且便携: 包含500个新生成的视频剪辑和CSV元数据,运行速度快。
  • 可扩展难度: 视频通过程序生成,可调整复杂度以应对模型改进。
  • 多样化类别: 涵盖抽象、数学、物理、规划、空间、时间(+因果)等多种推理类型。
  • 纯视觉推理: 问题直接嵌入视频中,无文本辅助。
  • 开发者友好: 提供可直接在Hugging Face上浏览和调试的子集。

数据集结构

  • test.csv: 包含数据集元数据,如视频文件名、查询、正确答案、问题文本和类别。
  • test.zip: 包含所有MP4视频文件。
  • test_sz512.zip: 包含长边调整为512px的MP4视频文件,保持原始宽高比。

资源链接

快速开始

  1. 下载视频: bash git clone https://huggingface.co/datasets/video-reasoning/morse-500

  2. 解压视频: bash unzip test_sz512.zip -d test_sz512

  3. 加载元数据: python from datasets import load_dataset dataset = load_dataset(video-reasoning/morse-500) dataset = dataset[test]

示例查询函数

python def encode_b64(file_path): with open(file_path, "rb") as file: return base64.b64encode(file.read()).decode("utf-8")

base64_video = encode_b64(video_path) video_url = f"data:video/mp4;base64,{base64_video}"

response = client.chat.completions.create( model=model_name, messages=[ { "role": "user", "content": [ {"type": "text", "text": query}, {"type": "video_url", "video_url": {"url": video_url}}, ], } ], )

更多脚本

  • 可在 Github 上找到更多脚本。
搜集汇总
数据集介绍
main_image_url
构建方式
MORSE-500是一个通过程序化生成的多模态推理视频基准数据集,包含500个完全脚本化的视频片段,涵盖数学、抽象、物理、规划、空间和时间六种互补的推理类型。数据集的构建采用了确定性Python脚本(通过Manim、Matplotlib、MoviePy)、生成视频模型和精选的真实素材相结合的方式。这种脚本驱动的设计允许对视觉复杂性、干扰物密度和时间动态进行细粒度控制,从而能够随着模型能力的提升系统地调整难度。
使用方法
MORSE-500的使用方法包括加载视频片段和嵌入的问题,模型需要根据视频内容回答问题。数据集的设计确保了评估的透明性和可重复性,支持多模态推理研究的进展。用户可以通过Hugging Face平台访问完整的数据集、生成脚本和评估工具,以便进行透明、可重复和前瞻性的多模态推理研究。初始实验表明,即使是当前最先进的系统,在所有推理类别中也存在显著的性能差距,特别是在抽象和规划任务中。
背景与挑战
背景概述
MORSE-500是由马里兰大学和Capital One的研究团队于2025年推出的多模态推理视频基准数据集。该数据集旨在解决当前视觉-语言模型(VLMs)评估中的三个关键缺陷:静态图像依赖、狭窄的数学问题聚焦以及基准快速饱和问题。数据集包含500个程序化生成的视频片段,涵盖数学、抽象、物理、规划、空间和时间六类推理任务,通过Manim、Matplotlib等工具实现难度可扩展性。该数据集已成为评估动态多模态推理能力的重要工具,推动了时序理解和复杂认知能力研究的发展。
当前挑战
MORSE-500面临的核心挑战包括:1) 领域问题方面,需解决视频时序推理、跨模态抽象思维和物理常识理解等复杂认知任务的评估难题;2) 构建过程中,需克服程序化视频生成的参数控制复杂性、六类推理任务的平衡设计,以及真实物理场景与生成内容的有效融合等技术挑战。此外,保持基准的前瞻性以避免模型快速饱和,同时确保评估结果与人类认知的一致性,也是持续面临的挑战。
常用场景
经典使用场景
MORSE-500数据集广泛应用于多模态推理研究领域,特别是在视频理解和动态视觉推理任务中。该数据集通过程序化生成的视频片段,嵌入了涵盖数学、抽象、物理、规划、空间和时间等六类推理问题,为研究者提供了一个全面评估模型多模态推理能力的平台。其经典使用场景包括评估视觉-语言模型在动态环境中的推理能力、测试模型对复杂时空关系的理解以及验证模型在抽象概念和物理规律应用方面的表现。
解决学术问题
MORSE-500数据集有效解决了当前多模态推理研究中的三个关键问题:静态图像偏见的局限性、推理类型覆盖不足以及基准快速饱和的问题。通过引入动态视频内容和程序化可控的难度生成机制,该数据集支持对模型进行持续的压力测试,并为诊断模型在各类推理任务中的失败模式提供了系统化的评估框架。其意义在于推动了从基于感知的评估向真正推理能力评估的范式转变,为开发具有稳健多模态推理能力的人工智能系统奠定了基础。
实际应用
在实际应用层面,MORSE-500数据集已被用于多个前沿领域。在机器人技术中,它帮助评估和提升机器人系统在动态环境中的规划和物理推理能力;在教育科技领域,支持开发能够理解复杂数学概念可视化讲解的智能辅导系统;在自动驾驶研究中,为测试车辆对时空关系和物理因果的推理能力提供基准。此外,该数据集的可控生成特性使其成为优化模型架构和训练策略的重要工具。
数据集最近研究
最新研究方向
MORSE-500数据集作为多模态推理领域的前沿基准,近期研究聚焦于动态视频环境下的复杂认知能力评估。该数据集通过程序化生成的500个脚本视频,系统覆盖数学、抽象、物理、规划、空间和时间六类核心推理能力,填补了传统静态图像基准在时序理解和因果推理方面的空白。研究热点包括:1)探索大语言模型在动态视觉场景中的时序记忆与多步推理能力,特别是在物理因果和抽象规划任务上的表现;2)开发可扩展的难度控制机制,通过调整视觉复杂度、干扰物密度和时间动态等参数实现基准的持续进化;3)研究模型在跨模态推理中的瓶颈,如视频-语言对齐、时空关系理解和物理常识建模。该数据集对推动具身智能、科学助手等应用场景中的多模态推理系统发展具有重要意义,其程序化生成范式也为构建不易饱和的持续评估框架提供了新思路。
相关研究论文
  • 1
    MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning马里兰大学帕克分校 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作