deepsynth-qa

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/baconnier/deepsynth-qa

下载链接

链接失效反馈

官方服务：

资源简介：

DeepSynth问答数据集是一个多语种问答数据集，包含文本和图像编码，用于视觉语言模型的训练。数据集包含了来自MS MARCO、Natural Questions、SQuAD FR和PIAF等多个来源的约507k个样本，其中包括英文短语境、英文长语境（带提取）、法语（进行中）等。每个样本包括问题文本、答案文本、短形式答案、长形式答案（如果可用）、源文档文本、文本的PNG渲染图像、质量指标、源数据集名称和技术元数据。

创建时间：

2025-10-29

原始信息汇总

DeepSynth Q&A 数据集概述

数据集基本信息

数据集名称: DeepSynth Q&A Dataset
主要用途: 用于视觉语言模型训练的多语言问答数据集，包含视觉文本编码
数据总量: 507,437个样本（预计增长至约875,000个）
数据格式: 包含指令、答案、文本和图像等多模态特征

数据集构成

数据来源分布

MS MARCO: 502,937个样本（英语，短上下文）
Natural Questions: 4,500个样本（英语，长上下文，带提取）
SQuAD FR: 约62,000个样本（法语，处理中）
PIAF: 约3,800个样本（法语，处理中）

数据特征结构

主要字段

instruction: 问题文本（字符串类型）
answer: 答案文本（字符串类型）
short_answer: 简短答案（字符串类型）
long_answer: 详细答案（字符串类型）
text: 源文档文本（字符串类型）
image: 文本的PNG渲染图像（图像类型，1600px宽度）
quality: 质量指标（优秀/良好/中等/差/不可读）
source_dataset: 源数据集名称（字符串类型）
original_index: 原始索引（int64类型）

元数据结构

metadata.source: 数据来源
metadata.config: 配置信息
metadata.original_index: 原始索引
metadata.original_split: 原始分割
metadata.has_short: 是否包含简短答案
metadata.has_long: 是否包含详细答案
metadata.answer_type: 答案类型
metadata.extraction_method: 提取方法
metadata.generation_resolution: 生成分辨率
metadata.quality_description: 质量描述
metadata.estimated_height: 估计高度
metadata.token_count: 令牌计数
metadata.extracted_token_count: 提取令牌计数

技术规格

批次结构

MS MARCO: 每批次5000个样本（约41MB）
Natural Questions: 每批次250个样本（约57MB）
SQuAD FR/PIAF: 每批次2500个样本（约50MB）

图像规格

分辨率: "gundam"分辨率（1600px宽度）
格式: PNG格式

使用方式

python from datasets import load_dataset

dataset = load_dataset("baconnier/deepsynth-qa", split="train")

按来源筛选数据

ms_marco = dataset.filter(lambda x: x[source_dataset] == ms_marco) natural_q = dataset.filter(lambda x: x[source_dataset] == natural_questions)

许可证信息

组合数据集 - 参考各源数据集的单独许可证

搜集汇总

数据集介绍

构建方式

在构建多模态问答数据集的背景下，deepsynth-qa通过整合多个权威数据集实现数据合成。该数据集主要融合了MS MARCO的英文短文本样本、Natural Questions的长文本抽取内容，以及法语数据集SQuAD FR和PIAF的渐进式扩充内容，形成跨语言多源结构。每个样本经过标准化处理，包含问题指令、长短答案文本及原始文档内容，并通过视觉文本编码技术将文本渲染为1600像素宽度的PNG图像，最终以分批次存储的parquet格式组织数据。

特点

从多模态语言模型训练需求出发，deepsynth-qa展现出显著的跨语言与多模态特征。数据集涵盖英语与法语双语言体系，提供短文本语境与长文档抽取两种问答模式，并独创性地将文本内容编码为高分辨率视觉图像。每个样本配备精细的质量评级体系和完整的技术元数据，包括文本标记统计、图像生成参数及数据来源标识，为模型训练提供多维度的监督信号。

使用方法

针对视觉语言模型的研究需求，该数据集可通过HuggingFace标准接口直接加载。研究者可使用datasets库调用完整训练集，并基于source_dataset字段实现数据源级过滤，例如分离MS MARCO与Natural Questions子集。数据批次按源数据集特性优化设计，不同子集采用差异化的批量规模，确保图像数据加载效率与内存管理的平衡。

背景与挑战

背景概述

DeepSynth-QA数据集作为多模态人工智能领域的重要资源，由Baconnier团队于2023年构建，旨在推进视觉语言模型的跨模态理解能力。该数据集整合了MS MARCO、Natural Questions等权威问答语料，通过将文本内容编码为高分辨率图像，构建了覆盖英语、法语等多语言的图文对位数据集。其创新性地采用1600像素宽度的‘高达分辨率’图像渲染技术，为视觉语言模型的联合训练提供了标准化数据支撑，显著提升了模型在文档理解与视觉推理任务中的泛化性能。

当前挑战

该数据集致力于解决视觉问答任务中文本与图像模态对齐的复杂性挑战，包括跨语言语境下的语义一致性保持、长文本视觉化过程中的信息损失控制等核心难题。在构建过程中面临多源数据融合的技术壁垒，需协调不同数据集的标注规范与质量分级体系；同时高分辨率图像生成涉及计算资源优化，需平衡批量处理效率与存储开销，例如针对MS MARCO数据设计的5000样本批量处理方案即是对内存管理的创新实践。

常用场景

经典使用场景

在视觉语言模型训练领域，deepsynth-qa数据集通过融合多语言问答对与视觉文本编码，为跨模态理解研究提供了关键支撑。其独特之处在于将文本内容转化为高分辨率图像呈现，使模型能够同时处理语言指令与视觉文本特征，特别适用于需要图文协同推理的复杂场景。这种设计显著提升了模型对文本布局、字体样式等视觉信息的感知能力，为多模态学习奠定了坚实基础。

实际应用

在实际应用层面，deepsynth-qa支撑了智能问答系统、多语言文档理解等关键场景的模型开发。其包含的MS MARCO和Natural Questions等优质数据源，使得训练出的模型能够适应从简短查询到长文档解析的多样化需求。高分辨率文本图像渲染技术特别适用于OCR增强、表格识别等实际任务，为构建具备视觉文本理解能力的商业系统提供了重要训练资源。

衍生相关工作

基于该数据集衍生的经典研究主要集中在多模态预训练架构创新领域。研究者利用其独特的视觉文本编码特性，开发了新型的跨模态注意力机制与融合策略。这些工作显著提升了模型在视觉问答、文档图像理解等任务上的性能，同时催生了针对多语言场景的迁移学习方法，为后续视觉语言大模型的演进提供了重要参考范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集