mmcoqa_doc

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/JoohyungYun/mmcoqa_doc

下载链接

链接失效反馈

官方服务：

资源简介：

MMCOQA_Doc 是一个为多模态问答与复杂推理任务设计的开源数据集，包含从维基百科爬取的文本、表格和图像数据。数据集旨在支持需要组合式和跨模态理解的问答研究。数据以 Parquet 格式存储，并通过加载脚本重构为包含结构化组件的 JSON 文档。每个文档按标题组织，包含文本、表格和图像组件，其中文本和表格保留标题路径、超链接等信息，图像则包含元数据和实际字节数据。数据集规模为小于 1K 文档示例，适用于多模态信息处理和问答系统开发等场景。数据加载后，文档结构包含标题、文本（含段落标题路径和超链接）、表格（二维数组形式）和图像（含文件名、标题路径和描述文字），图像文件以 PNG 格式单独存储。

MMCOQA_Doc is an open-source dataset designed for multimodal question answering and complex reasoning tasks. It contains text, table, and image data crawled from Wikipedia. This dataset aims to support research on question answering that requires compositional and cross-modal understanding. The data is stored in Parquet format and restructured into JSON documents with structured components via loading scripts. Each document is organized by title and includes text, table, and image components. Text and table components retain information such as title paths, hyperlinks, and other relevant details, while image components contain metadata and actual byte data. The dataset comprises fewer than 1,000 document instances, and is applicable to scenarios including multimodal information processing and question answering system development. Once loaded, the document structure includes title, text (with paragraph title paths and hyperlinks), tables (in two-dimensional array format), and images (with file names, title paths, and descriptive text). Image files are stored separately in PNG format.

创建时间：

2026-02-09

原始信息汇总

MMCOQA_Doc 数据集概述

数据集基本信息

名称：MMCOQA_Doc Dataset
许可证：apache-2.0
语言：英语 (en)
数据规模：小于1K (n<1K)

数据集来源与目的

该数据集包含为MMCOQA数据集爬取的维基百科数据。
MMCOQA是一个为需要复杂推理的多模态问答而设计的数据集。
数据集包含来自维基百科文章的文本、表格和图像，旨在支持需要组合式和跨模态理解的问题回答研究。

数据内容与结构

数据集包含一个数据加载脚本，用于读取以Parquet格式存储的文本、表格和图像数据，并将其重建为独立的JSON文档及其对应的图像文件。
每个JSON文档按doc_title组织，包含文本、表格和图像的结构化组件，并为每个元素保留了标题、说明文字和超链接。

配置与文件

数据集包含以下配置及其对应的数据文件：

text_component 配置：包含text.parquet文件（文本组件）。
table_component 配置：包含table.parquet文件（表格组件）。
image_component 配置：包含image.parquet文件（图像元数据组件）。
image_dump 配置：包含image_dump.parquet文件（图像的实际字节数据，通过image_name映射）。
dev 配置：包含dev.parquet文件（测试集）。

输出数据结构

每个文档存储为以下JSON结构： json { "title": "文档标题", "text": { "component_id_1": { "text": "主文本内容", "heading_path": ["章节1", "子章节A"], "hyperlinks": ["https://example.com"], "label_id": 0 } }, "table": { "component_id_2": { "table": [[...], [...]], "heading_path": ["章节2"], "hyperlinks": [], "label_id": 1 } }, "image": { "component_id_3": { "image_name": "image_1.png", "heading_path": ["章节3"], "caption": "图像说明文字", "hyperlinks": [], "label_id": 2 } } }

text、table、image字段使用组件ID作为键，包含每个组件的详细信息。
图像文件以.png格式保存在images/文件夹中。

使用方法

通过以下命令使用数据加载脚本： bash python load.py --parquet_path /path/to/parquet_data --save_path /path/to/restored_data

--parquet_path：包含Parquet文件的文件夹路径。
--save_path：用于保存重建的JSON文档和图像的路径（该路径必须不存在）。

成功重建后，终端将显示类似以下输出： text Loading Parquet Files... Restoring JSON Documents: 100%|█████████████| 483/483 [00:04<00:00, 102.10it/s] Successfully restored 483 documents. Folder Path: /workspace/mmcoqa_load

搜集汇总

数据集介绍

构建方式

在构建MMCOQA_Doc数据集时，研究者从维基百科中系统性地爬取了多模态文档内容，涵盖了文本、表格和图像三种信息形式。这些原始数据经过结构化处理，被分别存储于Parquet格式文件中，确保了数据的高效存储与访问。通过专门设计的数据加载脚本，这些分散的组件被重新整合为统一的JSON文档，每个文档均以标题为核心，完整保留了文本段落、表格结构及图像元数据，包括标题路径、超链接和标注信息，从而构建了一个支持复杂推理的多模态知识库。

特点

该数据集的核心特征在于其多模态与结构化并存的设计理念。它不仅融合了文本、表格和图像三种信息载体，还通过精细的组件划分与标注，实现了跨模态内容的有机关联。每个文档组件均附带详细的元数据，如标题层级和超链接，这为深入理解文档结构与语义关系提供了坚实基础。此外，图像数据以独立文件形式存储，并与JSON文档中的元数据精确映射，确保了多模态信息检索与推理任务的高效执行。

使用方法

使用MMCOQA_Doc数据集时，用户需通过提供的Python加载脚本，指定包含Parquet文件的输入路径以及期望的输出目录。脚本会自动读取并解析文本、表格和图像元数据，进而重构为结构化的JSON文档，同时将图像文件保存至独立文件夹。重构后的数据可直接用于多模态问答与复杂推理模型的训练或评估，研究者能够基于文档标题及组件信息，灵活设计跨模态检索与理解任务，推动人工智能在综合知识处理领域的发展。

背景与挑战

背景概述

MMCOQA_Doc数据集作为MMCOQA多模态问答数据集的核心文档来源，由研究团队于近年构建，旨在推动复杂推理与跨模态理解的前沿探索。该数据集系统性地爬取并整合了维基百科中的文本、表格与图像信息，为多模态问答任务提供了结构化、细粒度的文档基础。其设计初衷在于应对人工智能领域日益增长的需求，即要求模型不仅能够处理单一模态的信息，还需具备融合文本、视觉与结构化数据进行复合推理的能力。通过提供丰富的文档级多模态上下文，该数据集显著促进了问答系统在真实世界知识密集型场景下的应用研究，为后续模型开发与评估奠定了关键的数据基石。

当前挑战

MMCOQA_Doc数据集所应对的核心领域挑战在于多模态复杂问答，即模型需同时解析文本、表格与图像中的信息，并进行跨模态的关联与组合推理，以回答涉及多步骤逻辑的问题。在构建过程中，数据集面临多重技术挑战：首先，从维基百科中爬取并清洗多模态数据需要确保信息的完整性、一致性及版权合规性；其次，将异构数据（如文本段落、结构化表格和图像字节流）统一整合为结构化的JSON文档，需设计精细的组件标识与关联机制，以维持文档内部元素的语义连贯与层次关系；此外，图像数据的存储与映射（如图像元数据与实际字节数据的关联）也增加了数据管理与重构的复杂性。

常用场景

经典使用场景

在跨模态信息检索与推理领域，MMCOQA_Doc数据集常被用于训练和评估能够处理多模态文档的问答系统。该数据集整合了维基百科中的文本、表格和图像，模拟了真实世界知识库的复杂结构。研究人员利用其构建的文档，设计模型以理解并融合不同模态的信息，从而回答需要组合推理的问题，例如基于文本描述、表格数据和图像内容进行综合判断的查询。

衍生相关工作

基于MMCOQA_Doc数据集，已衍生出多项经典研究工作，主要集中在多模态预训练模型与推理框架的构建。例如，研究者开发了能够同时编码文本、表格和图像的Transformer架构，以增强跨模态注意力机制。这些工作进一步推动了如多模态检索增强生成（RAG）和视觉语言模型（VLM）的优化，为处理复杂文档问答任务提供了新的基准和解决方案，促进了该领域的持续创新。

数据集最近研究