aburns4/WikiWeb2M

Name: aburns4/WikiWeb2M
Creator: aburns4
Published: 2023-10-15 16:48:48
License: 暂无描述

Hugging Face2023-10-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/aburns4/WikiWeb2M

下载链接

链接失效反馈

官方服务：

资源简介：

WikiWeb2M数据集包含超过200万篇英文维基百科文章，涵盖了每页的文本内容、图像链接以及结构元数据（如每个文本和图像元素所属的章节）。该数据集以gzipped TFRecord文件格式存储，并提供了用于微调任务的样本数量统计。数据集的设计旨在支持多层次的网页理解任务，包括页面描述生成、章节摘要生成和上下文图像标注。

The WikiWeb2M dataset contains over 2 million English Wikipedia articles, covering the text content, image links, and structural metadata (e.g., the section each text and image element belongs to) of each page. This dataset is stored in gzipped TFRecord file format, and provides sample count statistics for fine-tuning tasks. The dataset is designed to support multi-level web comprehension tasks, including page description generation, section summary generation, and contextual image captioning.

提供机构：

aburns4

原始信息汇总

WikiWeb2M 数据集概述

数据集描述

WikiWeb2M 数据集包含超过200万篇英文维基百科文章。该数据集不仅包括每篇文章的文本内容，还包含指向文章中图片的链接以及结构化元数据，如文本和图片元素所属的各个部分。

数据集统计

基本统计

类别	训练集	验证集	测试集
页面	1,803,225	100,475	100,833
部分	10,519,294	585,651	588,552
唯一图片	3,867,277	284,975	286,390
总图片	5,340,708	299,057	300,666

下游任务样本统计

下游任务	训练集	验证集	测试集
页面描述生成	1,435,263	80,103	80,339
部分摘要生成	3,082,031	172,984	173,591
上下文图像标题生成	2,222,814	124,703	124,188

数据集结构

TFRecord特征

数据集存储为gzip压缩的TFRecord文件，包含以下特征：

split: 数据集分割（训练、验证或测试）
page_url: 维基百科页面URL
page_title: 维基百科页面标题
raw_page_description: 维基百科页面描述
clean_page_description: 清理后的页面描述，用于页面描述生成任务
page_contains_images: 页面是否包含图片
page_content_sections_without_table_list: 不包含列表或表格的内容部分数量
is_page_description_sample: 页面是否用于页面描述生成任务
section_title: 部分标题
section_index: 部分索引
section_depth: 部分深度
section_heading_level: 部分标题级别
section_subsection_index: 子部分索引
section_parent_index: 父部分索引
section_text: 部分文本内容
is_section_summarization_sample: 部分是否用于部分摘要生成任务
section_raw_1st_sentence: 部分第一句原始文本
section_clean_1st_sentence: 清理后的部分第一句，用于部分摘要生成任务
section_rest_sentence: 部分其余句子
section_contains_table_or_list: 部分是否包含表格或列表
section_contains_images: 部分是否包含图片
is_image_caption_sample: 图片是否用于图像标题生成任务
section_image_url: 图片URL
section_image_mime_type: 图片MIME类型
section_image_width: 图片宽度
section_image_height: 图片高度
section_image_in_wit: 图片是否源自WIT数据集
section_image_raw_attr_desc: 图片属性描述
section_image_clean_attr_desc: 清理后的图片属性描述
section_image_raw_ref_desc: 图片引用描述
section_image_clean_ref_desc: 清理后的图片引用描述，用于图像标题生成任务
section_image_alt_text: 图片替代文本
section_image_captions: 图片标题，由替代文本、属性和引用描述组成

数据集使用

数据集通过TFRecord格式提供，可以使用提供的Python代码片段加载和解析。

搜集汇总

数据集介绍

构建方式

本研究团队精心构建了名为WikiWeb2M的数据集，该数据集包含超过200万篇英文维基百科文章。构建过程中，团队采用TFRecord文件格式存储数据，并对其进行gzip压缩，以确保数据的高效存储与传输。数据集涵盖了页面文本内容、图片链接以及结构化元数据，如各部分所属的章节信息。此外，数据集的构建考虑了多种下游任务的需求，如页面描述生成、章节摘要和图像字幕生成，为多模态网页内容理解研究提供了丰富的资源。

使用方法

使用WikiWeb2M数据集时，研究者需首先加载必要的Python包，如numpy和tensorflow。通过定义数据解析类，研究者可以方便地解析TFRecord文件中的上下文特征和序列特征。通过调用解析类的parse_data方法，数据将被加载并存储在字典中，方便后续的数据处理和分析。此外，数据集的官方GitHub仓库提供了加载和解析数据的示例代码，有助于研究者快速上手。

背景与挑战

背景概述

WikiWeb2M数据集是一项涵盖超过200万篇英文维基百科文章的重要成果，由Andrea Burns等研究人员在2023年的EMNLP会议上提出。该数据集包含了每篇文章的全部文本内容、图片链接以及结构化元数据，旨在为多模态网页内容理解提供一套生成性任务。作为首个统一格式的多模态开源数据集，WikiWeb2M对于推动网页内容解析、信息提取和自动生成等领域的研究具有深远的影响。

当前挑战

在构建WikiWeb2M数据集的过程中，研究人员面临了诸多挑战，其中包括如何处理和过滤大量的网页内容以适应不同的微调任务。此外，数据集的多样性和质量保证也是一大挑战。在研究领域问题上，该数据集旨在解决多模态网页内容理解的难题，包括页面描述生成、章节摘要和图像字幕生成等任务，这些任务各自都面临着不同的技术挑战，如如何有效地结合文本和图像信息，以及如何生成准确且吸引人的描述和摘要。

常用场景

经典使用场景

在多媒体网页内容理解领域，WikiWeb2M数据集以其丰富的多模态特征，成为了研究的热点。该数据集包含了超过200万篇英文维基百科文章的全文内容、图片链接以及结构化元数据，被广泛应用于生成任务中，如页面描述生成、章节摘要和图像字幕生成等。

解决学术问题

该数据集解决了多模态内容理解和生成中的关键问题，如如何准确捕捉和表达网页内容的结构和语义信息，以及如何在多模态交互中实现有效的信息提取和融合。其对于提升多模态生成模型的理解能力和生成质量具有重要意义。

实际应用

在实际应用中，WikiWeb2M数据集可用于开发智能搜索引擎、内容推荐系统和多模态交互界面等，为用户提供更加丰富和准确的信息检索与呈现体验。

数据集最近研究