WebCompass
收藏WebCompass 数据集概述
数据集基本信息
- 数据集名称: WebCompass
- 发布机构: NJU-LINK × Kwaipilot
- 数据集定位: 用于评估大语言模型从多模态输入生成功能性网页能力的统一基准和评估框架。
- 官方地址: https://huggingface.co/datasets/NJU-LINK/WebCompass
- 论文地址: https://arxiv.org/abs/2604.18224
- 项目页面: https://nju-link.github.io/WebCompass/
- 许可证: Apache 2.0 License
数据集核心特点
- 多模态输入支持: 支持从文本设计文档、参考截图或视频演示生成网页。
- 五大任务类型: 文本生成、图像生成、视频生成、编辑、修复。
- 三维度评估: 可运行性、规范实现、设计质量。
- LLM-as-Judge: 使用多模态大语言模型进行视觉比较。
- 基于Docker的评估: 提供可复现的评估环境。
- 可扩展框架: 易于集成新模型和智能体。
数据集结构与规模
生成任务
| 配置 | 划分 | 样本数 | 描述 |
|---|---|---|---|
text-generation |
train | 123 | 从文本设计文档生成 |
image-generation |
train | 116 | 从参考截图生成 |
video-generation |
train | 94 | 从视频演示生成 |
编辑与修复任务
| 配置 | 划分 | 样本数 | 描述 |
|---|---|---|---|
editing |
sp / mp | 150 / 150 | 向单页/多页网站添加功能 |
repair |
sp / mp | 150 / 150 | 修复损坏的单页/多页网站以匹配目标 |
数据格式
每个生成任务是一个JSON对象,包含以下字段:
instance_id: 实例标识符repo: 代码仓库base_commit: 基础提交problem_statement: 问题陈述列表(包含任务、类别、操作序列、预期结果、标准、最高分等)meta: 元数据(包含类别、难度等)
评估类别与权重(生成任务)
- 可运行性: 页面加载无错误(约10%权重)
- 规范实现: 交互符合规范(约60-70%权重)
- 设计质量: 视觉保真度和布局准确性(约20-25%权重)
下载与使用
python from datasets import load_dataset
生成任务
ds_text = load_dataset("NJU-LINK/WebCompass", "text-generation", split="train") ds_image = load_dataset("NJU-LINK/WebCompass", "image-generation", split="train") ds_video = load_dataset("NJU-LINK/WebCompass", "video-generation", split="train")
编辑任务
ds_edit_sp = load_dataset("NJU-LINK/WebCompass", "editing", split="sp") ds_edit_mp = load_dataset("NJU-LINK/WebCompass", "editing", split="mp")
修复任务
ds_repair_sp = load_dataset("NJU-LINK/WebCompass", "repair", split="sp") ds_repair_mp = load_dataset("NJU-LINK/WebCompass", "repair", split="mp")
评估框架
生成评估
- 流程: 生成 → 评估(Docker智能体)→ LLM评判(仅图像)→ 评分计算
- 支持模型: OpenAI (gpt-4o, gpt-4o-mini, o1, o3-mini)、Anthropic (claude-sonnet-4-5-20250929, claude-opus-4-5-20250929)、Google (gemini-2.5-pro-preview-05-06, gemini-2.5-flash-preview-04-17)、开源模型 (Qwen3-VL-32B-Instruct, deepseek-chat) 等。
编辑与修复评估
- 任务类型:
- 编辑: 根据指令向现有网站添加新功能
- 修复: 修复损坏网站中的错误以匹配目标行为
- 评估维度:
- 编辑: 指令针对性、功能完整性、样式一致性
- 修复: 根因针对性、交互完整性、参考保真度
项目结构
WebCompass/ ├── generation/ # 生成评估框架 │ ├── inference/ # 网页生成脚本 │ └── evaluation/ # 评估工具 ├── editing_repair/ # 编辑与修复评估 └── site/ # 项目网站
引用
bibtex @misc{lei2026webcompassmultimodalwebcoding, title={WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models}, author={Xinping Lei and Xinyu Che and Junqi Xiong and Chenchen Zhang and Yukai Huang and Chenyu Zhou and Haoyang Huang and Minghao Liu and Letian Zhu and Hongyi Ye and Jinhua Hao and Ken Deng and Zizheng Zhan and Han Li and Dailin Li and Yifan Yao and Ming Sun and Zhaoxiang Zhang and Jiaheng Liu}, year={2026}, eprint={2604.18224}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2604.18224}, }




