webqa_doc

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/JoohyungYun/webqa_doc

下载链接

链接失效反馈

官方服务：

资源简介：

WebQA_Doc 数据集是一个为多模态问答任务设计的维基百科数据集合，旨在支持需要跨文本、表格和图像多种模态理解和推理的研究。数据集包含从维基百科文章中爬取的文本、表格和图像数据，以Parquet格式存储，并通过数据加载脚本重构为包含结构化组件的JSON文档和对应的图像文件。每个JSON文档按文档标题组织，包含文本、表格和图像的详细组件信息，如标题路径、超链接和标签ID。数据集规模在1K到10K之间，具体示例显示有7659个文档。数据集适用于多模态问答、信息检索和自然语言处理等研究领域。

创建时间：

2026-02-09

原始信息汇总

WebQA_Doc 数据集概述

数据集基本信息

名称: WebQA_Doc Dataset
许可证: Apache-2.0
语言: 英语 (en)
数据规模: 1K<n<10K

数据集目的与内容

目的: 为WebQA数据集提供支持，该数据集专为网络内容的多模态问答而设计。
内容: 包含从维基百科文章中爬取的文本、表格和图像数据，旨在支持需要跨多种模态进行理解和推理的问答研究。

数据集配置与文件

数据集包含以下配置，每个配置对应一个Parquet数据文件：

text_component: 包含按文档划分的文本组件，数据文件为 text.parquet。
table_component: 包含按文档划分的表格组件，数据文件为 table.parquet。
image_component: 包含按文档划分的图像组件元数据，数据文件为 image.parquet。
image_dump: 包含图像的实际字节数据（通过image_name映射），数据文件为 image_dump.parquet。
dev: 开发/测试集，数据文件为 dev.parquet。

数据结构与组织

输入文件结构

输入数据以Parquet格式存储，建议的文件夹结构示例如下：

parquet_data/ ├── text.parquet ├── table.parquet ├── image.parquet └── image_dump.parquet

输出文件结构

通过附带的数据加载脚本处理，可将数据恢复为以下结构：

JSON文档: 每个文档保存为一个独立的JSON文件。
图像文件: 所有图像文件集中保存在 images/ 子文件夹中，格式为 .png。

输出文件夹结构示例如下：

restored_data/ ├── images/ │ ├── image_1.png │ ├── image_2.png │ └── ... ├── Document_1.json ├── Document_2.json └── ...

JSON文档结构

每个恢复后的JSON文档结构如下： json { "title": "文档标题", "text": { "component_id_1": { "text": "主文本内容", "heading_path": ["章节1", "子章节A"], "hyperlinks": ["https://example.com"], "label_id": 0 } }, "table": { "component_id_2": { "table": [[...], [...]], "heading_path": ["章节2"], "hyperlinks": [], "label_id": 1 } }, "image": { "component_id_3": { "image_name": "image_1.png", "heading_path": ["章节3"], "caption": "图像说明", "hyperlinks": [], "label_id": 2 } } }

文档按 doc_title 组织。
text、table、image 字段以组件ID为键，包含每个组件的详细信息。
信息保留了每个元素的标题、说明文字和超链接。

使用方法

使用附带的数据加载脚本 load.py 进行数据恢复。 bash python load.py --parquet_path /path/to/parquet_data --save_path /path/to/restored_data

--parquet_path: 包含Parquet文件的文件夹路径。
--save_path: 用于保存恢复后的JSON文档和图像的路径（该路径必须不存在）。

成功恢复后，终端将显示类似以下信息：

Loading Parquet Files... Restoring JSON Documents: 100%|███████████| 7659/7659 [00:42<00:00, 180.27it/s] Successfully restored 7659 documents. Folder Path: /workspace/webqa_load

示例中显示了实际恢复的文档数量（7659份）。

搜集汇总

数据集介绍

构建方式

WebQA_Doc数据集通过系统化爬取维基百科内容构建而成，旨在为多模态问答研究提供结构化支持。其构建过程首先从维基百科文章中提取文本、表格和图像三种模态的数据，并将这些原始数据分别存储在Parquet格式文件中，以保持数据的高效存储与组织。随后，通过专门的数据加载脚本，将分散的Parquet文件重构为统一的JSON文档，每个文档以标题为核心，整合了文本段落、表格结构及图像元数据，同时保留了标题层级、超链接和图像标注等关键上下文信息，从而形成一个层次分明、多模态融合的知识库。

特点

该数据集的核心特点在于其多模态数据的深度融合与结构化呈现。它不仅涵盖了文本、表格和图像三种信息形式，还通过精细的组件标识与层级路径，将不同模态的内容有机地关联在同一文档框架下。每个JSON文档内部，文本、表格和图像均以组件ID为键进行组织，确保了数据访问的灵活性与精确性。此外，图像数据以独立文件形式存储，并与元数据紧密映射，支持视觉与文本信息的协同分析。这种设计使得数据集能够有效模拟真实网络环境中的信息复杂性，为跨模态理解与推理任务提供了丰富的实验素材。

使用方法

使用WebQA_Doc数据集时，研究人员需借助提供的数据加载脚本进行数据还原。通过命令行指定Parquet文件所在路径及目标保存路径，运行脚本后，系统将自动解析Parquet文件，重构为包含完整多模态信息的JSON文档集，并将图像文件输出至独立文件夹。还原后的数据可直接用于多模态问答模型的训练与评估，用户可依据文档标题或组件ID快速检索特定内容，结合文本、表格和图像的关联信息开展深入的跨模态分析。这一流程简化了数据预处理环节，使研究者能够专注于模型开发与实验设计。

背景与挑战

背景概述

WebQA_Doc数据集作为WebQA多模态问答数据集的核心支撑，由研究团队于近年构建，旨在应对互联网内容理解与推理的复杂性。该数据集系统性地爬取并整合了维基百科中的文本、表格与图像信息，为探索跨模态信息融合与问答提供了结构化资源。其设计聚焦于模拟真实网络环境下的信息检索与理解任务，推动了多模态人工智能在知识获取与推理领域的发展，成为评估模型处理异构数据能力的重要基准。

当前挑战

该数据集致力于解决多模态问答领域的核心挑战，即如何使模型有效整合文本、表格和图像中的异质信息以生成准确答案。构建过程中，面临数据对齐与标注的复杂性，需确保不同模态组件在语义与结构上的一致性，同时处理维基百科数据的动态更新与格式多样性。此外，图像与文本的关联性维护、大规模多模态数据的存储与高效重构，亦是数据集构建中需克服的技术难点。

常用场景

经典使用场景

在信息检索与多模态智能领域，WebQA_Doc数据集常被用于构建和评估跨模态问答系统。该数据集整合了维基百科中的文本、表格和图像内容，为研究者提供了一个丰富的多源知识库，支持模型在回答复杂问题时进行跨模态的理解与推理。典型应用包括训练模型从图文并茂的文档中提取关键信息，以回答需要综合多种数据形式的问题，从而推动多模态人工智能的发展。

衍生相关工作

围绕WebQA_Doc数据集，已衍生出多项经典研究工作，主要集中在多模态预训练模型和跨模态检索任务上。例如，基于该数据集的模型常被用于改进视觉-语言联合表示方法，如多模态Transformer架构的开发；同时，它也促进了文档级问答基准的建立，为评估模型在复杂场景下的性能提供了标准。这些工作进一步拓展了多模态人工智能的研究边界，推动了领域内技术的迭代与创新。

数据集最近研究