Mind2Web_bbox_eval

Name: Mind2Web_bbox_eval
Creator: NeuLab @ LTI/CMU
Published: 2024-10-18 10:18:38
License: 暂无描述

Hugging Face2024-10-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/neulab/Mind2Web_bbox_eval

下载链接

链接失效反馈

官方服务：

资源简介：

MultiUI是一个包含730万个样本的数据集，来自100万个网站，涵盖多种多模态任务和UI布局。该数据集在网页UI任务中表现出色，如在VisualWebBench上提高了48%，在Mind2Web数据集上的动作准确率提高了19.1%。此外，它还具有很好的泛化能力，适用于非网页UI任务和非UI领域，如文档理解、OCR和图表解释。

提供机构：

NeuLab @ LTI/CMU

创建时间：

2024-10-16

原始信息汇总

Mind2Web_bbox_eval 数据集概述

数据集简介

名称: Mind2Web_bbox_eval
来源: 用于论文《Harnessing Webpage UIs For Text Rich Visual Understanding》
主页: MultiUI Homepage
GitHub: MultiUI GitHub
arXiv: 论文链接

数据集内容

规模: 包含730万个样本，来自100万个网站
任务类型: 涵盖多模态任务和UI布局
应用:
- 在VisualWebBench上提升48%
- 在Mind2Web数据集上提升19.1%的动作准确率
- 泛化到非Web UI任务和非UI领域，如文档理解、OCR和图表解释

联系信息

Junpeng Liu: jpliu@link.cuhk.edu.hk
Xiang Yue: xyue2@andrew.cmu.edu

引用

@misc{liu2024harnessingwebpageuistextrich, title={Harnessing Webpage UIs for Text-Rich Visual Understanding}, author={Junpeng Liu and Tianyue Ou and Yifan Song and Yuxiao Qu and Wai Lam and Chenyan Xiong and Wenhu Chen and Graham Neubig and Xiang Yue}, year={2024}, eprint={2410.13824}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2410.13824}, }

搜集汇总

数据集介绍

构建方式

Mind2Web_bbox_eval数据集的构建依托于MultiUI项目，该项目从100万个网站中采集了730万条样本，涵盖了多样化的多模态任务和用户界面布局。数据集的构建过程注重网页UI的文本丰富性视觉理解，通过自动化工具和人工审核相结合的方式，确保了数据的多样性和准确性。这一过程不仅提升了数据集的代表性，还为后续的模型训练和评估提供了坚实的基础。

特点

Mind2Web_bbox_eval数据集以其广泛的覆盖范围和高质量的数据标注而著称。数据集包含了来自不同网站的多模态任务样本，涵盖了从网页UI到非UI领域的多种应用场景。其独特之处在于，通过训练该数据集，模型不仅在网页UI任务中表现出色，还能在文档理解、OCR和图表解析等非UI任务中展现出良好的泛化能力。这种跨领域的适应性使得该数据集成为多模态视觉理解研究的重要资源。

使用方法

Mind2Web_bbox_eval数据集的使用方法主要围绕多模态视觉理解任务展开。研究人员可以通过加载数据集，利用其丰富的样本进行模型训练和评估。数据集支持多种任务类型，包括网页UI理解、文档解析和图表识别等。使用过程中，建议结合MultiUI项目的开源工具和代码库，以便更高效地进行数据处理和模型开发。此外，数据集的使用应遵循其开放数据许可协议，确保研究的合规性和透明性。

背景与挑战

背景概述

Mind2Web_bbox_eval数据集由卡内基梅隆大学和香港中文大学的研究团队于2024年发布，旨在推动网页用户界面（UI）的文本丰富视觉理解研究。该数据集作为MultiUI项目的一部分，包含了来自100万个网站的730万样本，涵盖了多样化的多模态任务和UI布局。研究团队通过该数据集展示了模型在网页UI任务中的显著性能提升，并在非网页UI任务如文档理解、OCR和图表解析中展现了良好的泛化能力。该数据集的发布为网页UI理解及相关领域的研究提供了重要的数据支持，推动了多模态视觉理解技术的发展。

当前挑战

Mind2Web_bbox_eval数据集在解决网页UI理解问题时面临多重挑战。网页UI的多样性和复杂性使得模型在识别和解析不同布局、文本和视觉元素时面临困难。数据集中包含的样本来自广泛的网站，其UI设计风格和结构差异显著，这要求模型具备强大的泛化能力。此外，构建该数据集的过程中，研究团队需要处理大规模数据的采集、标注和清洗工作，确保数据质量和多样性。如何在保持数据多样性的同时，确保标注的准确性和一致性，是数据集构建中的另一大挑战。这些挑战不仅影响了数据集的构建效率，也对模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

Mind2Web_bbox_eval数据集在网页界面（UI）理解领域具有广泛的应用，尤其是在多模态任务和复杂UI布局的分析中。该数据集通过提供大量来自不同网站的样本，帮助研究人员训练和评估模型在网页UI任务中的表现。其经典使用场景包括网页元素的视觉识别、用户交互行为的预测以及跨模态信息的融合，这些任务在提升网页自动化操作的准确性和效率方面具有重要意义。

解决学术问题

Mind2Web_bbox_eval数据集解决了网页UI理解中的多个关键学术问题，特别是在多模态数据融合和跨领域泛化方面。通过提供丰富的网页UI样本，该数据集支持模型在视觉识别、文本理解和用户交互行为预测等任务中的性能提升。此外，其多样化的数据分布使得模型能够更好地适应不同领域的任务，如文档理解、OCR和图表解析，从而推动了多模态学习领域的研究进展。

衍生相关工作

Mind2Web_bbox_eval数据集的发布催生了一系列相关研究工作，特别是在多模态学习和网页UI理解领域。例如，基于该数据集的研究提出了新的多模态融合方法，显著提升了模型在网页UI任务中的表现。此外，该数据集还被用于探索跨领域泛化能力，推动了模型在文档理解、OCR和图表解析等非UI任务中的应用。这些工作进一步拓展了多模态学习的边界，为相关领域的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集