five

ISO-BENCH

收藏
arXiv2025-07-31 更新2025-08-02 收录
下载链接:
https://huggingface.co/datasets/StonyBrookNLP/ISO-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
ISO-BENCH是一个用于评估模型是否能够在视觉观察和程序性文本之间推断因果依赖关系的新基准。每个示例都展示了一个任务步骤的图像和一个计划的文本片段,目的是判断视觉步骤是否在文本步骤之前或之后发生。ISO-BENCH包含来自烹饪、汽车维护、手工制作和木工等领域的多样化示例,旨在解决多模态模型在现实世界环境中的因果推理问题。

ISO-BENCH is a novel benchmark for evaluating whether models can infer causal dependencies between visual observations and procedural text. Each example presents an image of a task step and a planned text snippet, with the objective of determining whether the visual step precedes or follows the text step. ISO-BENCH includes diverse examples spanning domains such as cooking, automotive maintenance, crafting, woodworking and other related fields, and is designed to address the causal reasoning challenges of multimodal models in real-world environments.
提供机构:
石溪大学
创建时间:
2025-07-31
搜集汇总
数据集介绍
main_image_url
构建方式
在跨模态因果推理研究领域,ISO-BENCH通过重构YouCook2和CrossTask两个教学视频数据集构建而成。研究团队从视频中提取关键帧作为视觉步骤表征,并选取计划文本的前后k个步骤形成文本片段,通过人工标注构建了764个包含依赖关系(DEP)和非依赖关系(NONDEP)的样本对。每个样本包含图像步骤与文本步骤的时空关系判断,严格遵循因果依赖的标注标准,形成了首个专注于跨模态程序性计划推理的评估基准。
特点
该数据集最显著的特征在于其严格的跨模态因果推理评估框架。样本均匀覆盖烹饪、汽车维修等多个领域,每个案例都包含视觉步骤与文本步骤的时序关系判断任务。独特之处在于区分了具有因果依赖的步骤对和可并行执行的步骤对,要求模型必须理解步骤间的先决条件与效果关系。数据集中DEP和NONDEP类别的平衡设计,以及步骤间距离的梯度变化,为全面评估模型能力提供了多维度的测试环境。
使用方法
使用该数据集时,研究者需向模型呈现目标名称、计划片段和视觉步骤,要求判断图像步骤必须发生在文本步骤之前或之后。评估支持两种模式:直接生成二元答案,或先进行思维链推理再给出结论。性能度量采用精确率、召回率和F1值,重点关注模型在DEP和NONDEP类别上的区分能力。该数据集特别适合用于检验视觉语言模型在程序性计划理解中的跨模态推理能力,为改进模型对现实世界计划的因果理解提供明确方向。
背景与挑战
背景概述
ISO-BENCH是由石溪大学(Stony Brook University)的研究团队于2025年推出的多模态因果推理基准测试数据集,旨在评估视觉-语言模型在跨模态程序性计划中的因果推理能力。该数据集基于YouCook2和CrossTask两个教学视频数据集构建,涵盖烹饪、汽车维修、手工艺等多个领域,每个示例包含一个任务步骤的图像和一个计划文本片段,要求模型判断视觉步骤是否必须在文本步骤之前或之后发生。ISO-BENCH的提出填补了现有基准测试在跨模态因果推理评估上的空白,为多模态模型在真实世界环境中的高级推理能力提供了重要的研究工具。
当前挑战
ISO-BENCH面临的核心挑战主要体现在两个方面:在领域问题方面,该数据集旨在解决多模态模型中视觉与文本信息之间的因果推理难题,当前最先进的视觉-语言模型在该任务上的表现(最佳F1分数仅0.62)远低于人类水平(0.98),显示出模型在理解跨模态程序性依赖关系上的显著不足;在构建过程方面,研究团队需要克服从教学视频中精确提取和标注时序依赖关系的挑战,包括确保图像步骤与文本片段之间因果关系的准确标注,以及处理不同领域(如烹饪与汽车维修)中多样化的程序性逻辑。
常用场景
经典使用场景
ISO-BENCH数据集主要用于评估多模态模型在视觉与文本跨模态因果推理任务中的表现。通过呈现任务步骤的图像和计划文本片段,模型需要判断视觉步骤是否必须在文本步骤之前或之后发生。这一场景模拟了现实世界中如烹饪、家具组装等需要多模态时序推理的任务,为研究模型在复杂环境中的因果理解能力提供了标准化测试平台。
实际应用
在智能家居助手和工业流程指导系统中,ISO-BENCH的评估范式可直接应用于验证系统对操作手册的跨模态理解能力。例如,当用户拍摄烹饪步骤图像时,系统需准确判断该步骤与语音指令的时序关系以避免错误操作。数据集中涵盖的汽车维修、木工制作等专业领域样本,更拓展了其在垂直行业培训类AI中的实用价值。
衍生相关工作
该数据集推动了多模态因果推理研究的系列工作:基于其发现的模型缺陷,后续研究提出了增强型视觉适配器架构(如DeepSeek-VL2的改进视觉编码器)和混合专家模型。相关衍生工作还包括将ISO-BENCH的评估框架扩展至视频时序推理(如TOMATO数据集)以及结合物理常识的因果推理基准(如CAT-BENCH),形成了多模态推理评估的完整方法论体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作