five

webqa_doc

收藏
Hugging Face2026-02-12 更新2026-02-13 收录
下载链接:
https://huggingface.co/datasets/JoohyungYun/webqa_doc
下载链接
链接失效反馈
官方服务:
资源简介:
WebQA_Doc 数据集是一个为多模态问答任务设计的维基百科数据集合,旨在支持需要跨文本、表格和图像多种模态理解和推理的研究。数据集包含从维基百科文章中爬取的文本、表格和图像数据,以Parquet格式存储,并通过数据加载脚本重构为包含结构化组件的JSON文档和对应的图像文件。每个JSON文档按文档标题组织,包含文本、表格和图像的详细组件信息,如标题路径、超链接和标签ID。数据集规模在1K到10K之间,具体示例显示有7659个文档。数据集适用于多模态问答、信息检索和自然语言处理等研究领域。
创建时间:
2026-02-09
原始信息汇总

WebQA_Doc 数据集概述

数据集基本信息

  • 名称: WebQA_Doc Dataset
  • 许可证: Apache-2.0
  • 语言: 英语 (en)
  • 数据规模: 1K<n<10K

数据集目的与内容

  • 目的: 为WebQA数据集提供支持,该数据集专为网络内容的多模态问答而设计。
  • 内容: 包含从维基百科文章中爬取的文本、表格和图像数据,旨在支持需要跨多种模态进行理解和推理的问答研究。

数据集配置与文件

数据集包含以下配置,每个配置对应一个Parquet数据文件:

  • text_component: 包含按文档划分的文本组件,数据文件为 text.parquet
  • table_component: 包含按文档划分的表格组件,数据文件为 table.parquet
  • image_component: 包含按文档划分的图像组件元数据,数据文件为 image.parquet
  • image_dump: 包含图像的实际字节数据(通过image_name映射),数据文件为 image_dump.parquet
  • dev: 开发/测试集,数据文件为 dev.parquet

数据结构与组织

输入文件结构

输入数据以Parquet格式存储,建议的文件夹结构示例如下:

parquet_data/ ├── text.parquet ├── table.parquet ├── image.parquet └── image_dump.parquet

输出文件结构

通过附带的数据加载脚本处理,可将数据恢复为以下结构:

  • JSON文档: 每个文档保存为一个独立的JSON文件。
  • 图像文件: 所有图像文件集中保存在 images/ 子文件夹中,格式为 .png

输出文件夹结构示例如下:

restored_data/ ├── images/ │ ├── image_1.png │ ├── image_2.png │ └── ... ├── Document_1.json ├── Document_2.json └── ...

JSON文档结构

每个恢复后的JSON文档结构如下: json { "title": "文档标题", "text": { "component_id_1": { "text": "主文本内容", "heading_path": ["章节1", "子章节A"], "hyperlinks": ["https://example.com"], "label_id": 0 } }, "table": { "component_id_2": { "table": [[...], [...]], "heading_path": ["章节2"], "hyperlinks": [], "label_id": 1 } }, "image": { "component_id_3": { "image_name": "image_1.png", "heading_path": ["章节3"], "caption": "图像说明", "hyperlinks": [], "label_id": 2 } } }

  • 文档按 doc_title 组织。
  • texttableimage 字段以组件ID为键,包含每个组件的详细信息。
  • 信息保留了每个元素的标题、说明文字和超链接。

使用方法

使用附带的数据加载脚本 load.py 进行数据恢复。 bash python load.py --parquet_path /path/to/parquet_data --save_path /path/to/restored_data

  • --parquet_path: 包含Parquet文件的文件夹路径。
  • --save_path: 用于保存恢复后的JSON文档和图像的路径(该路径必须不存在)。

成功恢复后,终端将显示类似以下信息:

Loading Parquet Files... Restoring JSON Documents: 100%|███████████| 7659/7659 [00:42<00:00, 180.27it/s] Successfully restored 7659 documents. Folder Path: /workspace/webqa_load

示例中显示了实际恢复的文档数量(7659份)。

搜集汇总
数据集介绍
main_image_url
构建方式
WebQA_Doc数据集通过系统化爬取维基百科内容构建而成,旨在为多模态问答研究提供结构化支持。其构建过程首先从维基百科文章中提取文本、表格和图像三种模态的数据,并将这些原始数据分别存储在Parquet格式文件中,以保持数据的高效存储与组织。随后,通过专门的数据加载脚本,将分散的Parquet文件重构为统一的JSON文档,每个文档以标题为核心,整合了文本段落、表格结构及图像元数据,同时保留了标题层级、超链接和图像标注等关键上下文信息,从而形成一个层次分明、多模态融合的知识库。
特点
该数据集的核心特点在于其多模态数据的深度融合与结构化呈现。它不仅涵盖了文本、表格和图像三种信息形式,还通过精细的组件标识与层级路径,将不同模态的内容有机地关联在同一文档框架下。每个JSON文档内部,文本、表格和图像均以组件ID为键进行组织,确保了数据访问的灵活性与精确性。此外,图像数据以独立文件形式存储,并与元数据紧密映射,支持视觉与文本信息的协同分析。这种设计使得数据集能够有效模拟真实网络环境中的信息复杂性,为跨模态理解与推理任务提供了丰富的实验素材。
使用方法
使用WebQA_Doc数据集时,研究人员需借助提供的数据加载脚本进行数据还原。通过命令行指定Parquet文件所在路径及目标保存路径,运行脚本后,系统将自动解析Parquet文件,重构为包含完整多模态信息的JSON文档集,并将图像文件输出至独立文件夹。还原后的数据可直接用于多模态问答模型的训练与评估,用户可依据文档标题或组件ID快速检索特定内容,结合文本、表格和图像的关联信息开展深入的跨模态分析。这一流程简化了数据预处理环节,使研究者能够专注于模型开发与实验设计。
背景与挑战
背景概述
WebQA_Doc数据集作为WebQA多模态问答数据集的核心支撑,由研究团队于近年构建,旨在应对互联网内容理解与推理的复杂性。该数据集系统性地爬取并整合了维基百科中的文本、表格与图像信息,为探索跨模态信息融合与问答提供了结构化资源。其设计聚焦于模拟真实网络环境下的信息检索与理解任务,推动了多模态人工智能在知识获取与推理领域的发展,成为评估模型处理异构数据能力的重要基准。
当前挑战
该数据集致力于解决多模态问答领域的核心挑战,即如何使模型有效整合文本、表格和图像中的异质信息以生成准确答案。构建过程中,面临数据对齐与标注的复杂性,需确保不同模态组件在语义与结构上的一致性,同时处理维基百科数据的动态更新与格式多样性。此外,图像与文本的关联性维护、大规模多模态数据的存储与高效重构,亦是数据集构建中需克服的技术难点。
常用场景
经典使用场景
在信息检索与多模态智能领域,WebQA_Doc数据集常被用于构建和评估跨模态问答系统。该数据集整合了维基百科中的文本、表格和图像内容,为研究者提供了一个丰富的多源知识库,支持模型在回答复杂问题时进行跨模态的理解与推理。典型应用包括训练模型从图文并茂的文档中提取关键信息,以回答需要综合多种数据形式的问题,从而推动多模态人工智能的发展。
衍生相关工作
围绕WebQA_Doc数据集,已衍生出多项经典研究工作,主要集中在多模态预训练模型和跨模态检索任务上。例如,基于该数据集的模型常被用于改进视觉-语言联合表示方法,如多模态Transformer架构的开发;同时,它也促进了文档级问答基准的建立,为评估模型在复杂场景下的性能提供了标准。这些工作进一步拓展了多模态人工智能的研究边界,推动了领域内技术的迭代与创新。
数据集最近研究
最新研究方向
在信息检索与多模态人工智能领域,WebQA_Doc数据集凭借其融合文本、表格与图像的维基百科结构化文档,正成为推动跨模态推理研究的关键资源。当前前沿探索聚焦于开发能够同时解析语言、视觉与结构化数据的统一模型,以应对复杂网页内容中的问答挑战。这一趋势与大规模多模态预训练技术的兴起紧密相连,旨在提升模型在真实场景下的语义理解与逻辑整合能力,为智能助手、知识图谱构建等应用提供更坚实的支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作