structureqa

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/qixiangbupt/structureqa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含五种类型的数据：图表、海报的QA数据，学术图表数据，文档QA数据，表格数据以及科学图片数据。图表、海报QA数据来源于ChartGalaxy项目，学术图表数据来源于PlotQA项目，文档QA数据来源于TAT-DQA项目，表格数据来源于HuggingFaceM4/the_cauldron数据集的robut_wtq部分和WTQ官方数据集。数据集经过清洗、转换和增强处理，例如添加随机边框、底色等，以提高数据的质量和多样性。

This dataset contains five types of data: QA data for charts and posters, academic chart data, document QA data, tabular data, and scientific image data. The QA data for charts and posters is sourced from the ChartGalaxy project, the academic chart data is derived from the PlotQA project, the document QA data comes from the TAT-DQA project, and the tabular data is obtained from the robut_wtq subset of the HuggingFaceM4/the_cauldron dataset and the official WTQ dataset. The dataset has undergone cleaning, conversion and augmentation processing, such as adding random borders, background colors and other similar adjustments, to improve its quality and diversity.

创建时间：

2025-06-11

搜集汇总

数据集介绍

构建方式

在信息可视化与文档理解领域，structureqa数据集通过系统整合多源异构数据构建而成。其构建过程涵盖从ChartGalaxy项目中精选图表与海报问答数据，自PlotQA抽样生成学术图表样本，并对TAT-DQA文档进行格式对齐以保留复杂表格结构。同时从the_cauldron数据集中提取清洗科学图片与表格问答数据，并针对WikiTableQuestions原始HTML/CSV表格开发了包含视觉样式一致性的转换流程，最终形成跨模态的结构化数据集合。

特点

该数据集显著特点体现在其多模态结构与领域覆盖的广度。囊括学术图表、文档表格、科学图片及海报等多元视觉形态，每个样本均配备精准的问答对标注。数据来源兼具真实场景采集与程序化生成样本，其中PlotQA部分保留Matplotlib等科学绘图工具的生成特征，TAT-DQA则包含需要离散推理的复杂文档布局。视觉呈现方面特别注重样式一致性，如为表格数据统一添加随机边框与底色以模拟真实场景的视觉多样性。

使用方法

研究者可借助该数据集开展多模态文档理解与视觉问答任务的模型训练与评估。使用时需根据parquet文件格式加载相应子集，其中chart_galaxy_full_4k适用于图表海报分析，plotqa_sample_8k专注于学术图表推理，tatdqa_full_11k针对复杂文档表格理解，the_cauldron系列分别服务于科学图片与表格问答任务，wikitablequestions_9k则提供带有视觉样式的表格数据处理。各子集均支持端到端的视觉语言联合建模，适用于跨模态预训练与细粒度推理任务验证。

背景与挑战

背景概述

StructureQA数据集诞生于多模态文档理解研究蓬勃发展的时代，由ChartGalaxy、NExT++等知名研究团队联合构建，专注于解决复杂文档结构中的视觉问答任务。该数据集整合了学术图表、海报、表格及科学图片等多种结构化数据形式，旨在推动机器对非纯文本信息的语义解析与推理能力。其跨模态特性对文档智能、视觉语言理解等领域产生了显著影响，为研究者提供了评估模型综合认知能力的基准平台。

当前挑战

该数据集核心挑战在于解决异构文档的跨模态推理问题，要求模型同时理解视觉元素、文本描述及结构化数据的关联性。构建过程中面临多源数据对齐的复杂性，例如需将原始HTML表格转换为视觉一致的渲染图像，并保持图标语义连贯性。此外，科学图表中Matplotlib代码与视觉呈现的映射关系、文档表格结构的多层次解析以及不同数据源间的格式标准化，均为数据集构建带来显著技术挑战。

常用场景

经典使用场景

在文档智能与多模态推理领域，StructureQA数据集通过整合图表、学术图、文档及表格等多种结构化数据，为模型提供了丰富的视觉与文本联合理解场景。其经典应用集中于训练模型进行跨模态问答，尤其是在解析科学图表、提取表格信息以及理解复杂文档布局方面表现出色，成为评估模型结构化数据处理能力的基准工具。

实际应用

在实际应用中，StructureQA可服务于智能教育系统，辅助学生理解科学图表与学术数据；在商业场景中，它能增强自动化报表分析工具的信息提取精度；同时也可用于构建智能文档处理平台，提升对含表格、图表等混合布局文档的语义解析效率，为金融、科研等行业提供技术支持。

衍生相关工作

基于StructureQA衍生的经典工作包括跨模态预训练模型如StructVBERT和TABERT，这些模型融合了视觉与表格特征；此外，它还催生了多项文档问答推理研究，如基于TAT-DQA的层次化推理框架和针对PlotQA的视觉语言联合建模方法，显著推动了多模态推理领域的技术迭代。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集