webqa_doc
收藏WebQA_Doc 数据集概述
数据集基本信息
- 名称: WebQA_Doc Dataset
- 许可证: Apache-2.0
- 语言: 英语 (en)
- 数据规模: 1K<n<10K
数据集目的与内容
- 目的: 为WebQA数据集提供支持,该数据集专为网络内容的多模态问答而设计。
- 内容: 包含从维基百科文章中爬取的文本、表格和图像数据,旨在支持需要跨多种模态进行理解和推理的问答研究。
数据集配置与文件
数据集包含以下配置,每个配置对应一个Parquet数据文件:
- text_component: 包含按文档划分的文本组件,数据文件为
text.parquet。 - table_component: 包含按文档划分的表格组件,数据文件为
table.parquet。 - image_component: 包含按文档划分的图像组件元数据,数据文件为
image.parquet。 - image_dump: 包含图像的实际字节数据(通过
image_name映射),数据文件为image_dump.parquet。 - dev: 开发/测试集,数据文件为
dev.parquet。
数据结构与组织
输入文件结构
输入数据以Parquet格式存储,建议的文件夹结构示例如下:
parquet_data/ ├── text.parquet ├── table.parquet ├── image.parquet └── image_dump.parquet
输出文件结构
通过附带的数据加载脚本处理,可将数据恢复为以下结构:
- JSON文档: 每个文档保存为一个独立的JSON文件。
- 图像文件: 所有图像文件集中保存在
images/子文件夹中,格式为.png。
输出文件夹结构示例如下:
restored_data/ ├── images/ │ ├── image_1.png │ ├── image_2.png │ └── ... ├── Document_1.json ├── Document_2.json └── ...
JSON文档结构
每个恢复后的JSON文档结构如下: json { "title": "文档标题", "text": { "component_id_1": { "text": "主文本内容", "heading_path": ["章节1", "子章节A"], "hyperlinks": ["https://example.com"], "label_id": 0 } }, "table": { "component_id_2": { "table": [[...], [...]], "heading_path": ["章节2"], "hyperlinks": [], "label_id": 1 } }, "image": { "component_id_3": { "image_name": "image_1.png", "heading_path": ["章节3"], "caption": "图像说明", "hyperlinks": [], "label_id": 2 } } }
- 文档按
doc_title组织。 text、table、image字段以组件ID为键,包含每个组件的详细信息。- 信息保留了每个元素的标题、说明文字和超链接。
使用方法
使用附带的数据加载脚本 load.py 进行数据恢复。
bash
python load.py --parquet_path /path/to/parquet_data --save_path /path/to/restored_data
--parquet_path: 包含Parquet文件的文件夹路径。--save_path: 用于保存恢复后的JSON文档和图像的路径(该路径必须不存在)。
成功恢复后,终端将显示类似以下信息:
Loading Parquet Files... Restoring JSON Documents: 100%|███████████| 7659/7659 [00:42<00:00, 180.27it/s] Successfully restored 7659 documents. Folder Path: /workspace/webqa_load
示例中显示了实际恢复的文档数量(7659份)。




