WebUIBench
收藏WebUIBench 数据集概述
基本信息
- 数据集名称: WebUIBench
- 发布日期: 2024年5月20日
- 许可证: MIT
- 数据集地址: HuggingFace
- 论文地址: arXiv
- GitHub仓库: MAIL-Tele-AI/WebUIBench
数据集简介
WebUIBench是一个系统设计的基准测试,用于评估多模态大语言模型(MLLMs)在四个关键领域的能力:
- WebUI感知
- HTML编程
- WebUI-HTML理解
- WebUI-to-Code
数据集包含21K高质量的问题-答案对,源自超过0.7K个真实世界的网站。
评估结果
研究团队对29个主流多模态大语言模型进行了全面评估,包括:
- 7个闭源模型: GPT-4o、Gemini-1.5 Pro、Claude-3.5-Sonnet等
- 22个开源模型: InternVL2.5系列、Qwen2-VL系列等(参数规模从2B到78B不等)
安装与使用
-
安装: bash git clone https://github.com/MAIL-Tele-AI/WebUIBench cd WebUIBench pip install -r requirements.txt
-
评估: bash tasks=(ec ocr ap vg cec cfe whm whr w2c) model_name=your_model_name for task in ${tasks[@]}; do python model_eval.py --task xx --model_name ${model_name} --gold_path xx --pred_path xx --eval_model gpt4o --eval_output xx --eval_type node --task_type ${task}
引用
如需引用,请使用以下BibTeX条目: bibtex @article{xx, title={WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code}, author={xx}, journal={arXiv preprint arXiv:xx}, year={2025} }
致谢
特别感谢以下项目的贡献:




