IWR-Bench
收藏IWR-Bench 数据集概述
数据集简介
IWR-Bench是一个专门设计用于评估大型视觉语言模型从用户交互视频重建动态交互式网页能力的新型基准测试。该基准针对现有基准主要关注静态"截图到代码"任务的局限性,提出了更贴近真实场景的挑战:模型不仅需要理解网页的视觉布局,还需要从视频中推断其交互逻辑并生成功能完整的代码。
核心特性
- 真实世界任务:包含从100个真实网站精心挑选的113个任务,涵盖广泛领域、视觉风格和交互模式
- 动态交互视频:输入不是静态截图,而是捕捉完整状态交互工作流程的视频,对模型的时间推理能力提出更高要求
- 完整开发资源:每个任务提供所有必要的静态资源,模拟真实的网页开发环境
- 功能中心化评估:开发了"Agent-as-a-Judge"自动评估框架,通过程序化执行动作序列来评估生成网页的交互功能分数和视觉保真度分数
数据集构成
数据集包含113个任务,每个任务包括:
- 用户交互视频
- 网页所需的所有静态资源
- 用于评估的真实动作序列
- 每个动作步骤后的真实截图
评估结果
通过对28个领先LVLM模型的广泛评估,发现当前模型在此任务上存在关键瓶颈:
- 高度挑战性任务:即使表现最佳的模型总体得分仅为36.35%
- 功能是主要瓶颈:模型在复制静态视觉布局方面表现中等,但生成正确事件驱动逻辑的能力严重受限
- 通用多模态能力关键:通用LVLM通常优于专门用于视频理解的模型
数据访问
- HuggingFace数据集:https://huggingface.co/datasets/IWR-Bench/IWR-Bench
引用信息
bibtex @misc{chen2025iwrbenchlvlmsreconstructinteractive, title={IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?}, author={Yang Chen and Minghao Liu and Yufan Shen and Yunwen Li and Tianyuan Huang and Xinyu Fang and Tianyu Zheng and Wenxuan Huang and Cheng Yang and Daocheng Fu and Jianbiao Mei and Rong Wu and Yunfei Zhao and Licheng Wen and Xuemeng Yang and Song Mao and Qunshu Lin and Zhi Yu and Yongliang Shen and Yu Qiao and Botian Shi}, year={2025}, eprint={2509.24709}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.24709}, }




