WikiWeb2M

Name: WikiWeb2M
Creator: 波士顿大学和谷歌
Published: 2023-05-09 21:20:59
License: 暂无描述

arXiv2023-05-09 更新2024-06-21 收录

下载链接：

https://github.com/google-research-datasets/wit/blob/main/wikiweb2m.md

下载链接

链接失效反馈

官方服务：

资源简介：

WikiWeb2M是由波士顿大学和谷歌合作创建的一个大型多模态数据集，专注于维基百科网页的全面分析。该数据集包含约200万维基百科页面，涵盖完整的文本、图像及其结构数据。创建过程中，研究团队重新抓取了WIT数据集中的英文文章，并保留了所有相关内容，如页面URL、标题、图像及其描述等。WikiWeb2M的应用领域广泛，包括页面描述生成、部分摘要以及上下文图像标注等，旨在提升网页内容的理解和交互，特别是在辅助技术和内容生成方面具有重要价值。

WikiWeb2M is a large-scale multimodal dataset jointly developed by Boston University and Google, focusing on comprehensive analysis of Wikipedia webpages. The dataset contains approximately 2 million Wikipedia pages, covering complete text, images and their structural data. During its construction, the research team re-scraped the English articles from the WIT dataset and retained all relevant content including page URLs, titles, images and their descriptions, etc. WikiWeb2M has a wide range of application scenarios, such as webpage description generation, partial summarization and contextual image annotation. It aims to enhance the understanding and interaction of webpage content, and holds considerable value particularly in the domains of assistive technologies and content generation.

提供机构：

波士顿大学和谷歌

创建时间：

2023-05-09

搜集汇总

数据集介绍

构建方式

WikiWeb2M数据集的构建源于对Wikipedia Image Text（WIT）数据集中约200万篇英文文章的重新爬取与整合。与WIT仅保留图像-描述对不同，该数据集通过保留网页的完整HTML结构，囊括了所有文本、图像及其在页面中的位置信息（如章节索引）。构建过程中，仅保留内容性章节（如排除“参见”部分），并筛选JPEG与PNG格式且尺寸大于1像素的图像，同时提供图像尺寸元数据以支持后续过滤。数据集以随机划分方式生成180万/10万/10万的训练、验证与测试集，确保了样本分布的均衡性。

特点

该数据集的核心特点在于其多模态与结构完整性，首次在公开数据集中统一了网页的文本、图像与结构信息，支持多对多的图文关系研究。相较于WIT，WikiWeb2M新增了近100万张图像，并包含680万条此前未收录的文本章节。数据集不仅保留了图像描述、替代文本等元数据，还提供了章节标题、索引等结构化信息，为细粒度的网页理解任务提供了丰富资源。此外，其规模超过200万页面，覆盖广泛领域，为大规模多模态预训练与微调奠定了坚实基础。

使用方法

WikiWeb2M支持三类核心多模态生成任务：页面描述生成、章节摘要生成与上下文图像描述生成。页面描述任务利用Wikipedia提供的页面描述作为目标，输入其余网页内容生成概述；章节摘要任务将章节首句作为伪摘要，结合图像与文本生成简洁总结；上下文图像描述则利用完整网页上下文（而非仅目标章节）生成图像描述。数据集提供明确的训练/验证/测试划分，并开源了图像URL与元数据，用户可基于T5、ViT等模型进行实验，通过BLEU-4、ROUGE-L与CIDEr等指标评估性能。

背景与挑战

背景概述

网页作为多模态结构化内容的丰富载体，长期以来为语言与视觉-语言模型提供了海量训练资源。然而，现有数据集多仅保留网页的碎片化信息，如图像-文本对、长文本文章或原始HTML，鲜有能够完整整合文本、图像及其结构关系的统一数据集。2023年，由波士顿大学、Google及FAIR等机构的研究人员共同创建的WikiWeb2M数据集应运而生，旨在填补这一空白。该数据集基于维基百科约200万英文页面，通过重新爬取并保留所有图像、文本及位置信息（如章节索引），首次实现了网页级多模态内容的完整统一。其核心研究问题聚焦于多模态网页理解任务，涵盖页面描述生成、章节摘要及上下文图像描述等，为辅助技术（如屏幕阅读器）和现代内容生成提供了新的可能性。WikiWeb2M的发布不仅推动了多模态学习领域的发展，也为网页结构化数据的深度挖掘奠定了重要基础。

当前挑战

WikiWeb2M所面临的挑战主要源于多模态网页理解的复杂性与数据集构建的独特性。在领域问题层面，现有研究多聚焦于图像分类或文本生成等单一模态任务，而网页内容的多模态性要求模型能够同时处理文本、图像及其空间结构，这对跨模态对齐与融合提出了更高要求。例如，上下文图像描述任务需要模型利用整个网页的上下文信息生成精准的标题，而非仅依赖局部片段。在构建过程中，挑战同样显著：从约200万维基百科页面中提取并保留所有内容章节、过滤无关结构（如“参见”部分），同时确保图像质量（仅保留JPEG和PNG格式且尺寸大于1像素）并维护海量数据的可扩展性，均需精细的工程设计与资源投入。此外，如何定义合理的任务基准（如章节摘要中利用首句作为伪摘要）并验证其有效性，也是数据集构建中的关键难题。

常用场景

经典使用场景

WikiWeb2M数据集作为首个完整保留网页中图像、文本与结构信息的多模态资源，在网页理解领域开辟了全新的研究范式。其经典使用场景涵盖页面描述生成、章节摘要生成以及上下文图像描述三大核心任务。研究者可基于该数据集，利用网页内丰富的多模态上下文——包括标题、段落文本、图像及其位置索引——训练模型生成精准的页面级描述，或对特定章节进行凝练概括，亦可为网页图像生成融合全局信息的上下文描述。这些任务不仅推动了多模态内容理解的前沿探索，还为评估模型在结构化、非对齐数据上的生成能力提供了标准化基准。

衍生相关工作

WikiWeb2M的发布催生了一系列经典衍生工作，深化了多模态网页理解的研究脉络。基于其统一的数据结构，研究者得以拓展网页分类、跨模态检索等任务，例如利用页面全上下文进行细粒度的主题分类或图文匹配。在生成领域，后续工作借鉴其章节摘要范式，探索了多层级摘要与长文本压缩技术；上下文图像描述任务则被扩展为包含实体感知的生成模型，提升了描述的信息密度与准确性。此外，该数据集还推动了多模态预训练模型的发展，如将页面结构编码融入Transformer架构，用于改进少样本学习与跨任务迁移能力，形成了从数据构建到模型创新的良性研究循环。

数据集最近研究