IWR-Bench

github2025-11-19 更新2025-11-20 收录

下载链接：

https://github.com/SIGMME/IWR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

IWR-Bench是一个新颖的基准数据集，旨在评估大型视觉语言模型从用户交互视频中重建动态交互式网页的能力。该数据集包含来自100个真实网站的113个精心策划的任务，涵盖广泛的领域、视觉样式和交互模式，提供完整的开发资产和基于代理作为评判的自动化评估框架

IWR-Bench is a novel benchmark dataset aimed at evaluating the capability of large vision-language models to reconstruct dynamic interactive webpages from user interaction videos. This dataset includes 113 carefully curated tasks sourced from 100 real-world websites, covering a broad spectrum of domains, visual styles, and interaction modalities, and provides complete development assets along with an automated evaluation framework that employs AI Agents as judges.

创建时间：

2025-11-19

原始信息汇总

IWR-Bench 数据集概述

数据集简介

IWR-Bench 是一个新颖的基准测试，旨在评估大型视觉语言模型从用户交互视频中重建动态交互式网页的能力。该基准测试提出了一项更贴近真实场景的挑战：模型不仅需要理解网页的视觉布局，还需要从视频中推断其交互逻辑，并生成功能完整的代码。

核心特性

真实世界任务：包含来自100个真实网站的113个精心策划的任务，涵盖广泛领域、视觉样式和交互模式
动态交互视频：输入不是静态截图，而是捕捉完整状态交互工作流程的视频，对模型的时间推理能力提出更大挑战
完整开发资源：每个任务提供所有必要的静态资源，模拟真实的网页开发环境
功能中心化评估：开发了"Agent-as-a-Judge"自动评估框架，通过程序化执行动作序列来评估生成网页的交互功能分数和视觉保真度分数

数据集构成

数据集包含113个任务，每个任务包括：

用户交互视频
网页所需的所有静态资源
用于评估的真实动作序列
每个动作步骤后的真实截图

评估结果

对28个领先LVLM的广泛评估揭示了当前模型在此任务中的关键瓶颈：

专有MLLM表现

最高分模型GPT-5总体得分仅为36.35%
交互功能分数最高仅为24.39%
视觉保真度分数最高为64.25%

开源MLLM表现

Qwen3-VL (thinking) 总体得分31.15%
Qwen2.5-VL-72B 总体得分23.61%

关键发现

交互式网页重建在很大程度上仍是未解决的问题
功能实现是主要瓶颈，模型生成正确事件驱动逻辑的能力严重受限
通用多模态能力比专门的视频处理架构更为关键

数据访问

数据集可通过以下地址获取：

HuggingFace Datasets：https://huggingface.co/datasets/IWR-Bench/IWR-Bench

引用信息

bibtex @article{chen2025iwr, title={IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?}, author={Chen, Yang and Liu, Minghao and Shen, Yufan and Li, Yunwen and Huang, Tianyuan and Fang, Xinyu and Zheng, Tianyu and Huang, Wenxuan and Yang, Cheng and Fu, Daocheng and others}, journal={arXiv preprint arXiv:2509.24709}, year={2025} }

搜集汇总

数据集介绍

构建方式

在网页交互理解领域，IWR-Bench通过系统化采集流程构建了包含113项任务的基准数据集。研究团队从100个真实网站中筛选具有代表性的交互场景，采用屏幕录制技术捕获完整的用户操作视频序列，同时配套收集所有静态资源文件。每个任务单元均包含经过人工校验的真实交互动作序列，并配备逐步操作后的页面截图作为验证依据，最终形成涵盖多领域交互模式的标准化数据集合。

特点

该数据集的核心价值体现在其突破性的动态交互特性。相较于传统静态网页数据集，IWR-Bench首次将视频时序推理引入网页重构任务，要求模型从连续交互流程中解析状态转移逻辑。数据集覆盖电商、社交、工具等多样化应用场景，其独特的智能体评判机制通过程序化执行预定义动作序列，从交互功能完整性与视觉保真度两个维度建立量化评估体系，为模型能力诊断提供精准度量标准。

使用方法

研究者可通过官方代码库快速部署评估环境，按照标准流程加载交互视频与静态资源后输入待测模型。系统将自动生成可执行网页代码，并通过预设的智能体评判框架进行功能验证。评估过程采用并行计算架构，支持批量任务处理与结果可视化，最终输出包含交互功能得分与视觉保真得分的综合性能报告，为模型优化提供明确改进方向。

背景与挑战

背景概述

随着多模态人工智能技术的快速发展，大型视觉语言模型在静态图像理解领域已取得显著进展，然而动态交互场景的理解仍存在明显空白。IWR-Bench基准数据集于2025年由SIGMME研究团队提出，专注于评估模型从用户交互视频中重构动态交互网页的能力。该数据集通过整合113个真实网站任务，突破了传统静态截图转代码任务的局限，将研究视野扩展至包含点击、输入、状态转换等动态交互逻辑的复杂场景，为网页自动化生成和人机交互研究提供了重要基准。

当前挑战

该数据集核心挑战体现在两个维度：在领域问题层面，模型需同时解决动态视觉序列理解、交互逻辑推理与功能性代码生成的三重难题，现有最优模型的交互功能评分仅达24.39%，揭示出现代网页复杂状态转换机制的建模困境；在构建过程中，研究团队面临真实交互工作流的标准化采集、多模态数据对齐以及自动化评估框架设计等挑战，特别是如何通过智能体裁判机制精确量化生成网页的功能完备性与视觉保真度，这要求构建者平衡评估效率与测量精度。

常用场景

经典使用场景

在网页交互智能生成领域，IWR-Bench通过用户交互视频重构动态网页的核心任务，为大型视觉语言模型提供了标准化的能力评估框架。该数据集要求模型从包含完整交互流程的视频中解析视觉布局与状态变化，并生成具备事件响应功能的网页代码，有效模拟了真实场景中从用户行为到界面还原的完整链路。

解决学术问题

该数据集突破了传统静态截图转代码任务的局限，首次系统性地解决了动态交互逻辑推理的学术难题。通过引入时序感知的评估机制，显著提升了模型对网页状态迁移、用户意图理解等核心能力的量化标准，为多模态推理与程序生成的前沿研究建立了可复现的实验基准。

衍生相关工作

基于该数据集提出的Agent-as-a-Judge评估范式，已衍生出多模态程序合成、视频时序推理等研究方向。相关工作通过改进的视觉语言预训练策略，在网页组件识别精度和交互逻辑泛化能力上取得突破，为构建端到端的智能开发工具链提供了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集