IKEA-Bench
收藏arXiv2026-04-01 更新2026-04-03 收录
下载链接:
https://ryenhails.github.io/IKEA-Bench/
下载链接
链接失效反馈官方服务:
资源简介:
IKEA-Bench是由阿尔托大学团队构建的跨描述对齐基准数据集,包含29款宜家家具产品的1623个评测问题,涵盖步骤识别、验证等6类任务。数据源自IKEA Manuals at Work数据集,通过视频帧与示意图的时间对齐标注构建,涉及2569个视频帧和132个结构化文本描述。该数据集专为评估视觉语言模型在抽象示意图与真实视频间的对齐能力而设计,旨在解决智能装配指导系统中的核心挑战——跨描述鸿沟问题。
提供机构:
阿尔托大学
创建时间:
2026-04-01
原始信息汇总
IKEA-Bench 数据集概述
基本信息
- 数据集名称:IKEA-Bench
- 发布日期:2026年(arXiv预印本)
- 研究机构:Aalto University
- 作者:Zhuchenyang Liu · Yao Zhang · Yu Xiao
- 论文地址:https://arxiv.org/abs/2604.00913
- GitHub仓库:https://github.com/Ryenhails/IKEA-Bench
- HuggingFace数据集地址:https://huggingface.co/datasets/Ryenhails/IKEA-Bench
- 许可证:CC-BY-4.0
研究目标
- 系统评估视觉-语言模型在跨描绘对齐能力上的表现,即理解无文字组装示意图并将其与真实世界视频进行匹配的能力。
- 核心挑战是弥合**示意图(线条图)与真实视频(照片级真实感)**之间的描绘差距。
- 涵盖29种家具产品。
基准测试结构
- 基准问题数量:1,623个
- 评估的视觉-语言模型数量:19个
- 任务类型数量:6种
- 对齐策略数量:3种
任务详情
| 代码 | 任务名称 | 描述 | 类型 | 问题数量(N) |
|---|---|---|---|---|
| T1 | Step Recognition | 哪个示意图与视频中的动作匹配? | 4项选择题 | 320 |
| T2 | Action Verification | 这个视频是否匹配这个示意图? | 二分类 | 350 |
| T3 | Progress Tracking | 当前动作对应于完整序列中的哪一步? | 4项选择题 | 334 |
| T4 | Next-Step Prediction | 当前视频动作之后应该是哪个示意图? | 4项选择题 | 204 |
| D1 | Video Discrimination | 两个视频片段是否显示相同的组装步骤? | 二分类 | 350 |
| D2 | Instruction Comprehension | 三个打乱顺序的示意图的正确顺序是什么? | 4项选择题 | 65 |
主要结果(视觉基线设置下的准确率%)
- 最佳模型(Gemini-3-Flash)平均准确率为65.9%,远低于人类在这些任务上的表现。
- 完整排行榜见数据集详情页。
关键发现
- 示意图盲区:所有17个开源模型在仅使用视觉输入时,在D2任务上的表现比仅使用文本输入时更差,表明它们难以“阅读”训练过的示意图。
- 文本的双重作用:添加文本描述提升了对示意图的理解(D2任务提升24个百分点),但损害了跨模态对齐能力(T1任务下降6个百分点)。文本成为捷径,模型依赖文本匹配而减少对视觉内容的关注。
- 架构优于规模:在跨描绘任务上,Qwen3.5-9B(9B参数)的表现优于InternVL3.5-38B(38B参数)和Gemma3-27B(27B参数)。对于示意图理解,模型家族比参数数量更重要。
机制分析
通过三个处理阶段探究模型失败的原因:
- 表示层:示意图和视频在ViT层面的表示相似度中等(0.43–0.58),在视觉融合器后进一步下降,证实了表示差距。
- 隐藏状态层:当添加文本描述时,示意图对LLM预测的影响下降59%,而文本影响增加24%。模型从视觉推理转向文本介导的推理。
- 注意力层:当添加文本时,对示意图标记的每标记注意力下降52%,而文本标记吸收了释放的注意力。模型学会完全绕过示意图处理。
- 瓶颈识别:视觉编码器是瓶颈,即使在模态内表现良好的情况下,跨模态检索(示意图→视频)仍然失败,表明ViT无法创建对齐的跨描绘表示。
快速开始
-
克隆并安装 bash git clone https://github.com/Ryenhails/IKEA-Bench.git cd IKEA-Bench && pip install -r requirements.txt
-
下载数据(约300MB,从HuggingFace获取) bash python setup_data.py
-
评估模型 bash python -m ikea_bench.eval --model qwen3-vl-8b --setting baseline --input data/qa_benchmark.json --data-dir data --output results/qwen3-vl-8b_baseline.json
引用格式
bibtex @article{liu2026ikeabench, title={Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment}, author={Liu, Zhuchenyang and Zhang, Yao and Xiao, Yu}, journal={arXiv preprint arXiv:2604.00913}, year={2026} }
搜集汇总
数据集介绍

构建方式
在跨模态视觉语言模型评估领域,IKEA-Bench的构建依托于IKEA Manuals at Work数据集,该数据集提供了家具组装视频与无文字步骤图之间的密集时间对齐标注。研究团队从中筛选了29款IKEA产品,排除了步骤过少或存在数据质量问题的样本。通过确定性构建流程,从2569个视频帧中提取出1623个基准问题,涵盖六种任务类型。每个问题均基于真实时间对齐标注生成,视频帧从标注的时间段内均匀采样,干扰项则选自相邻组装步骤,以确保视觉相似性,从而防止模型通过粗粒度部件匹配等捷径策略获得优势。
特点
IKEA-Bench的核心特征在于其系统性评估跨描绘对齐的能力,即连接抽象示意图与真实视频帧之间的语义鸿沟。该基准包含六类任务,不仅测试基础的步骤识别与验证,还涵盖需要时序推理的进度跟踪与下一步预测。其设计巧妙之处在于引入了两种诊断任务,分别隔离视频理解与说明书理解瓶颈。基准支持三种对齐策略——纯视觉、视觉加文本以及纯文本输入,使得研究者能够精确分析不同输入配置对模型性能的影响。数据集的抗捷径设计确保了评估的严谨性,所有干扰项均来自描绘相同部件但处于不同组装阶段的相邻步骤,迫使模型进行真正的跨描绘理解。
使用方法
使用IKEA-Bench进行评估时,需遵循其定义的三种对齐策略。在纯视觉策略下,模型仅接收示意图图像和视频帧,直面完整的描绘鸿沟。视觉加文本策略则在每个示意图后附加多维度文本描述,为模型提供文本桥梁。纯文本策略则完全用文本描述替换示意图,从而消除描绘鸿沟,主要用于诊断视觉解析的贡献。评估采用零样本设置,模型需根据特定任务的系统上下文和交错排列的图像-文本格式提示生成答案。答案提取通过多优先级正则表达式匹配完成,未解析的响应计为错误。该基准为比较不同视觉语言模型在跨描绘对齐任务上的能力提供了标准化框架。
背景与挑战
背景概述
IKEA-Bench 数据集由阿尔托大学的研究团队于2026年创建,旨在系统评估视觉语言模型在跨描绘装配指令对齐任务中的性能。该数据集聚焦于解决现实世界中二维装配图解与实时视频流之间的对齐难题,即所谓的“描绘鸿沟”。装配图解通常采用抽象示意图风格,而视频则呈现真实场景下的操作过程,两者在视觉特征上存在显著差异。IKEA-Bench 基于 IKEA Manuals at Work 数据集构建,涵盖了29款宜家家具产品,包含1623个问题,涉及步骤识别、验证、进度跟踪及下一步预测等六类任务。该数据集的推出为研究视觉语言模型在跨模态时序理解领域的鲁棒性提供了首个系统性基准,推动了智能装配辅助系统的发展。
当前挑战
IKEA-Bench 数据集所针对的核心领域挑战是跨描绘对齐问题,即要求模型在视觉风格迥异的装配图解与真实视频之间建立语义关联,以支持步骤识别、错误检测等装配指导功能。构建过程中的主要挑战包括:1)数据对齐的复杂性,需确保图解步骤与视频片段在时间维度上精确匹配;2)抗捷径设计,通过选取相邻步骤作为干扰项,迫使模型依赖深层语义理解而非表面特征匹配;3)多策略评估框架的建立,需设计视觉、视觉加文本及纯文本三种对齐策略,以分离模型在不同模态下的能力瓶颈。此外,数据集中图解的无文本特性进一步增加了模型解析的难度,凸显了视觉编码器在跨描绘场景下的局限性。
常用场景
经典使用场景
在视觉语言模型(VLM)的评估领域,IKEA-Bench 作为一个专门针对跨描绘对齐任务的基准,其经典使用场景聚焦于系统性地评估模型在理解抽象装配图解与真实视频帧之间对应关系的能力。该数据集通过设计六种任务类型,如步骤识别、步骤验证、进度跟踪和下一步预测,模拟了现实世界中基于二维手册的装配指导需求,从而为研究者提供了一个标准化的测试平台,以量化模型在应对图解与视频间视觉特征差异(即“描绘鸿沟”)时的性能表现。
解决学术问题
IKEA-Bench 主要解决了视觉语言模型在跨描绘对齐任务中面临的若干核心学术问题。它首次系统性地评估了模型在处理装配图解(如线条图、爆炸视图)与真实视频帧(如杂乱、逼真的场景)之间对应关系时的能力,揭示了模型在视觉编码层面的瓶颈,即图解与视频在特征空间中占据不相交的子空间。此外,该数据集通过机制分析,阐明了文本描述在提升图解理解的同时,可能分散模型对视觉信息的注意力,从而为改进模型的跨描绘鲁棒性提供了实证依据,推动了视觉语言模型在技术图像理解领域的基础研究。
衍生相关工作
IKEA-Bench 的提出衍生了一系列相关经典工作,主要集中在跨描绘识别与视觉语言模型评估的交叉领域。例如,Manual2Skill 利用视觉语言模型解析装配手册为结构化图谱以支持机器人操作,LEGO Co-builder 则在合成图像上评估模型的装配状态检测能力。此外,该数据集的机制分析方法借鉴了如《The Hidden Life of Tokens》等研究对视觉信息在模型中传递路径的追踪,以及NOTICE对通用注意力头的识别,从而深化了对跨描绘对齐失败原因的理解,并激励了后续针对视觉编码器改进与跨描绘对比训练的研究方向。
以上内容由遇见数据集搜集并总结生成



