IWR-Bench

github2025-10-17 更新2025-10-18 收录

下载链接：

https://github.com/L-O-I/IWR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

IWR-Bench是一个新颖的基准数据集，旨在评估大型视觉语言模型从用户交互视频中重建动态交互式网页的能力。该数据集包含从100个真实网站精心策划的113个任务，涵盖广泛的领域、视觉样式和交互模式，提供完整的开发资产和基于代理即法官的自动化评估框架

IWR-Bench is a novel benchmark dataset aimed at evaluating the capability of large vision-language models to reconstruct dynamic interactive webpages from user-interactive videos. This dataset includes 113 tasks meticulously curated from 100 real-world websites, covering a wide range of domains, visual styles and interaction modes, and provides complete development assets as well as an agent-as-judge based automated evaluation framework.

创建时间：

2025-09-29

原始信息汇总

IWR-Bench 数据集概述

数据集简介

IWR-Bench是一个专门设计用于评估大型视觉语言模型从用户交互视频重建动态交互式网页能力的新型基准测试。该基准针对现有基准主要关注静态"截图到代码"任务的局限性，提出了更贴近真实场景的挑战：模型不仅需要理解网页的视觉布局，还需要从视频中推断其交互逻辑并生成功能完整的代码。

核心特性

真实世界任务：包含从100个真实网站精心挑选的113个任务，涵盖广泛领域、视觉风格和交互模式
动态交互视频：输入不是静态截图，而是捕捉完整状态交互工作流程的视频，对模型的时间推理能力提出更高要求
完整开发资源：每个任务提供所有必要的静态资源，模拟真实的网页开发环境
功能中心化评估：开发了"Agent-as-a-Judge"自动评估框架，通过程序化执行动作序列来评估生成网页的交互功能分数和视觉保真度分数

数据集构成

数据集包含113个任务，每个任务包括：

用户交互视频
网页所需的所有静态资源
用于评估的真实动作序列
每个动作步骤后的真实截图

评估结果

通过对28个领先LVLM模型的广泛评估，发现当前模型在此任务上存在关键瓶颈：

高度挑战性任务：即使表现最佳的模型总体得分仅为36.35%
功能是主要瓶颈：模型在复制静态视觉布局方面表现中等，但生成正确事件驱动逻辑的能力严重受限
通用多模态能力关键：通用LVLM通常优于专门用于视频理解的模型

数据访问

HuggingFace数据集：https://huggingface.co/datasets/IWR-Bench/IWR-Bench

引用信息

bibtex @misc{chen2025iwrbenchlvlmsreconstructinteractive, title={IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?}, author={Yang Chen and Minghao Liu and Yufan Shen and Yunwen Li and Tianyuan Huang and Xinyu Fang and Tianyu Zheng and Wenxuan Huang and Cheng Yang and Daocheng Fu and Jianbiao Mei and Rong Wu and Yunfei Zhao and Licheng Wen and Xuemeng Yang and Song Mao and Qunshu Lin and Zhi Yu and Yongliang Shen and Yu Qiao and Botian Shi}, year={2025}, eprint={2509.24709}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.24709}, }

搜集汇总

数据集介绍

构建方式

在网页交互理解领域，IWR-Bench通过系统化采集流程构建而成。该数据集从100个真实网站中精选113项具有代表性的交互任务，涵盖多样化领域与视觉风格。每个任务单元包含完整的用户交互视频序列、网页静态资源库以及标准化的真实动作序列，通过模拟真实用户操作轨迹确保数据的时间连贯性与逻辑完整性。构建过程中采用多维度验证机制，保证交互逻辑与视觉元素的精确对应。

特点

该数据集最显著的特征在于其动态交互评估框架的创新设计。区别于传统静态网页识别任务，IWR-Bench以交互视频作为核心输入媒介，要求模型具备时序推理与状态转换理解能力。数据集提供完整的开发资源环境，包含图像、图标等静态素材，模拟真实网页开发场景。其独创的智能体评判机制通过程序化执行预设动作序列，从交互功能性与视觉保真度两个维度建立量化评估体系。

使用方法

研究者可通过标准化流程快速部署该数据集。首先从HuggingFace平台获取完整数据包，配置包含浏览器模拟环境的依赖组件。评估阶段采用双阶段架构：初始阶段通过多线程并行处理生成网页代码，后续阶段启动自动化测试框架，利用智能体执行预设交互序列并生成量化评估报告。该流程支持主流视觉语言模型的即插即用测试，确保评估结果的可复现性与横向可比性。

背景与挑战

背景概述

随着多模态人工智能技术的快速发展，大型视觉语言模型在静态图像理解领域已取得显著进展，然而动态交互场景的理解仍面临严峻挑战。IWR-Bench作为2025年发布的新型基准测试，由前沿研究团队联合构建，专注于评估模型从用户交互视频中重构动态交互式网页的能力。该数据集突破传统静态截图转代码任务的局限，通过涵盖113个真实网站任务，推动模型实现视觉布局解析与交互逻辑推断的深度融合，为智能网页开发与多模态推理研究开辟了新维度。

当前挑战

该数据集核心挑战体现在双重维度：在领域问题层面，模型需同步解决动态视觉序列解析、交互状态追踪与功能性代码生成的复合难题，现有最优模型的交互功能得分仅达24.39%，揭示出事件驱动逻辑推理仍是关键瓶颈；在构建过程中，研究团队需攻克真实交互场景的标准化采集、多模态数据对齐与自动化评估框架设计等难题，特别是建立兼顾视觉保真度与交互功能的量化评估体系，这对基准测试的可靠性与可复现性提出极高要求。

常用场景

经典使用场景

在交互式网页设计领域，IWR-Bench作为首个专注于动态网页重建的基准测试，其核心应用场景在于评估大型视觉语言模型从用户交互视频中还原交互逻辑的能力。该数据集通过呈现包含完整状态转换的交互流程视频，要求模型不仅解析视觉布局，还需推断如按钮点击、表单输入等动态行为，最终生成具备完整功能的网页代码。这种设定突破了传统静态截图转代码任务的局限，为模型时空推理能力提供了精准的测量标尺。

衍生相关工作

基于该数据集提出的评估范式，已有研究开始探索改进模型时空建模能力的新方法。部分工作尝试融合视频理解与程序生成技术，通过增强模型对交互序列的语义解析来提升代码生成质量。另一些研究则专注于优化评估框架，开发更精细的交互功能验证指标。这些衍生工作共同推动了多模态模型在复杂网页重建任务中的技术进步，为后续研究奠定了重要基础。

数据集最近研究