SPLICE

Name: SPLICE
Creator: 德国奥斯纳布吕克大学认知科学研究所
Published: 2025-09-29 19:50:18
License: 暂无描述

arXiv2025-09-29 更新2025-10-01 收录

下载链接：

https://huggingface.co/datasets/prokajevo/splice-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

SPLICE是一个由人类精心策划的基准数据集，从COIN教学视频数据集中衍生而来，旨在测试视觉语言模型在多个维度上的基于事件的推理能力，包括时间、因果、空间、上下文和通用知识。该数据集包含3,381个经过人工筛选的视频，跨越12个类别和180个子类别，例如运动、工程和家庭工作。这些视频被分割成总共11,423个事件片段。SPLICE通过要求模型将剪辑重新排列成连贯的事件序列来评估其视觉推理能力，填补了现有视觉推理评估的空白。

SPLICE is a human-curated benchmark dataset derived from the COIN instructional video dataset, designed to evaluate event-based reasoning abilities of vision-language models across multiple dimensions including temporal, causal, spatial, contextual and general knowledge. This dataset includes 3,381 manually screened videos covering 12 main categories and 180 subcategories, such as sports, engineering tasks and household work. These videos are segmented into a total of 11,423 event clips. SPLICE assesses models' visual reasoning capabilities by requiring them to rearrange these video clips into coherent event sequences, thus filling the gaps in existing visual reasoning evaluation benchmarks.

提供机构：

德国奥斯纳布吕克大学认知科学研究所

创建时间：

2025-09-29

原始信息汇总

SPLICE 数据集概述

数据集基本信息

数据集名称: SPLICE (Sequential Processing for Learning and Inference in Chronological Events)
许可证: CC-BY-NC-4.0
类型: 多模态、视频、视频理解、时序推理、因果推理、事件重排序、上下文推理、常识推理
正式名称: SPLICE: A Human Curated Benchmark for Probing Visual Reasoning in VLMs

数据集简介

SPLICE是一个人工策划的基准测试，旨在评估多模态大语言模型(MLLMs)的时序和因果推理能力。核心任务是将单个程序性事件中的一组乱序视频片段重新排序为正确的时序序列。

主要任务与能力评估

主要任务

视频片段重排序: 从一组乱序视频片段中重建连贯的事件序列

推理维度评估

时序推理
因果推理
空间推理
上下文推理
通用知识推理

数据集结构

数据规模

总任务数: 3,381个验证任务
总片段数: 11,423个视频片段
数据分割: 单一main分割

数据字段

video: 可播放的视频片段
file_name: 视频片段文件相对路径
video_id: 原始父视频唯一ID
part: 片段在父视频中的真实时序位置(1开始索引)
label: 视频片段事件的人工标注文本描述
domain: 任务高级类别
class: 任务具体名称
subset: COIN数据集原始分割
start/end: 片段在原始视频中的时间戳
segment_id: 片段唯一ID
task_duration: 原始父视频总时长(秒)
video_url: 原始完整视频的YouTube URL

数据集创建过程

来源: 从COIN数据集选择教学视频
选择: 随机采样3,600个多样化视频
分割: 使用COIN的真实标注进行时间分割
匿名化: 移除音频轨道、元数据和原始文件名
人工验证: 每个任务由两名独立标注者验证
最终基准: 包含3,381个验证任务

引用信息

bibtex @inproceedings{ ballout2025can, title={Can you {SPLICE} it together? A Human Curated Benchmark for Probing Visual Reasoning in {VLM}s}, author={Mohamad Ballout* and Okajevo Wilfred* and Seyedalireza Yaghoubi and Nohayr Muhammad Abdelmoneim and Julius Mayer and Elia Bruni}, booktitle={The 2025 Conference on Empirical Methods in Natural Language Processing}, year={2025}, url={https://openreview.net/forum?id=deFgBHsHxl} }

搜集汇总

数据集介绍

构建方式

SPLICE基准数据集通过严谨的人工筛选流程构建，其基础源自COIN教学视频数据集。研究团队从COIN中选取3,600个涵盖12个领域180个任务的视频，依据原始事件标注将每个视频分割为最多7个非重叠片段。通过双人交叉验证机制对片段序列进行人工排序标注，并严格排除存在重复指令、连续动作模糊或无关动作的视频，最终形成包含3,381个高质量视频和11,423个事件片段的标准化数据集。

特点

该数据集的核心特征在于其多维度推理评估体系，要求模型对打乱的事件片段进行时序重组，全面考察时空推理、因果推理、上下文推理及常识推理能力。视频内容覆盖日常家务、专业体育、工程技术等多样化场景，片段长度基于事件持续时间动态变化，有效防止模型通过首尾帧相似性等表面特征取巧。数据集提供纯视频、视频加文本双模态输入，其中文本标注为人工生成的简短事件描述，为研究跨模态对齐机制提供理想实验环境。

使用方法

使用SPLICE进行评估时，模型需接收随机打乱的视频片段序列，通过分析视觉内容与文本标注推断正确时序排列。评估采用严格的全序列匹配准确率与位置加权准确率双重指标，重点关注模型在纯视觉模态下的推理能力。基准测试涵盖不同片段数量（2-7段）与视频时长（15-330秒）的多种组合，支持对开源与闭源视觉语言模型进行系统性能力比对，为视觉推理研究提供标准化测评框架。

背景与挑战

背景概述

SPLICE数据集由奥斯纳布吕克大学认知科学研究所于2025年提出，是基于COIN教学视频数据集构建的人类标注基准。该数据集旨在系统评估视觉语言模型在事件序列重建中的多维度推理能力，涵盖时间、因果、空间、上下文和常识推理等关键维度。研究团队通过严谨的人工筛选流程，从12个领域180个子类别中精选3,381个视频，分割为11,423个事件片段，建立了首个专注于纯视觉序列推理的评估基准。该数据集填补了现有基准在视觉推理评估方面的空白，为理解VLMs的认知能力提供了重要工具。

当前挑战

SPLICE数据集面临的核心挑战在于解决视觉序列排序问题的复杂性，要求模型具备超越表层特征的多层次推理能力。构建过程中的主要挑战包括：确保事件片段的语义完整性，避免因视觉相似性导致的排序歧义；处理不同领域视频的异质性，从日常家务到专业技术任务均需保持评估一致性；平衡片段数量与计算复杂度，在保证评估深度的同时控制内存需求。此外，数据清洗阶段需人工排除重复指令、连续动作模糊和无关行为等干扰因素，确保基准的严谨性和可靠性。

常用场景

经典使用场景

在视觉语言模型评估领域，SPLICE数据集作为时序推理能力的重要测试平台，其经典应用场景聚焦于视频片段重排序任务。研究者将教学视频分割为多个事件片段并随机打乱顺序，要求模型基于视觉内容重建原始事件序列。这种设计有效模拟了现实世界中人类对连续事件的理解过程，为评估模型的多维度推理能力提供了标准化测试环境。

实际应用

在实际应用层面，SPLICE数据集的技术成果可直接转化为智能教学系统、工业流程监控和安防视频分析等领域的解决方案。基于事件序列理解的模型能够自动解析教学视频中的操作步骤，为在线教育平台提供智能辅导功能；在工业生产中可实时监测装配流程的正确性；在安防领域则能准确识别异常行为序列，提升监控系统的智能化水平。

衍生相关工作

该数据集的发布催生了一系列关于多模态推理的衍生研究。基于SPLICE提出的评估框架，研究者开发了更精细的推理类型分析工具，深入探究模型在不同推理维度上的表现差异。同时启发了针对长视频理解、跨模态对齐等方向的新方法探索，推动了视觉语言模型在事件理解、时序推理等核心能力上的持续进步，为构建更强大的多模态智能系统奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集