SV-DOC

Name: SV-DOC
Creator: 哈尔滨工业大学 ITNLP 实验室
Published: 2025-09-09 17:16:25
License: 暂无描述

arXiv2025-09-09 更新2025-09-11 收录

下载链接：

https://github.com/xiepeijinhit-hue/textlessrag

下载链接

链接失效反馈

官方服务：

资源简介：

SV-DOC 是一个面向语音驱动的视觉文档问答的基准数据集，包含中英文语音查询和多媒体文档内容。该数据集由现有的英文视觉文档问答数据集和 RAGBench 扩展而来，并包含了一个从头开始构建的中文文档 RAG 数据集。数据集内容丰富，涵盖了多个领域和格式的文档，如 PDF 和 PPT。SV-DOC 的构建过程遵循了五个步骤，包括文档收集、页面分割、候选 QA 对生成、QA 对过滤和人工标注、以及文本到语音的转换。SV-DOC 的应用领域主要面向语音驱动的视觉文档问答，旨在解决传统文本输入的限制，并扩展多模态大语言模型的应用场景。

SV-DOC is a benchmark dataset for speech-driven visual document question answering. It contains both Chinese and English speech queries and multimedia document contents. The dataset is extended from existing English visual document QA datasets and RAGBench, and also includes a Chinese document RAG dataset built from scratch. The dataset boasts rich content, covering documents across multiple domains and formats including PDF and PPT. The construction of SV-DOC follows five core steps: document collection, page segmentation, candidate QA pair generation, QA pair filtering and manual annotation, and text-to-speech conversion. Its primary application scenario is speech-driven visual document question answering, aiming to address the limitations of traditional text-based input and expand the application scenarios of multimodal large language models.

提供机构：

哈尔滨工业大学 ITNLP 实验室

创建时间：

2025-09-09

原始信息汇总

TextLessRAG 数据集概述

数据集简介

TextLessRAG 是首个用于大规模文档图像语音问答的端到端框架。该框架绕过自动语音识别（ASR）、文本转语音（TTS）和光学字符识别（OCR），直接解释语音查询、检索相关视觉知识并以完全无文本的流程生成答案。

数据集特点

首个双语语音-文档 RAG 数据集：SV-DOC，包含中文和英文语音查询与多模态文档内容对齐
端到端多模态检索增强生成管道：无需 OCR、ASR 和 TTS
双语支持：包含英语和中文双语数据

技术框架

检索模型：Colqwen-Omni
生成模型：Qwen2.5-Omni-7B
布局模型：DocLayout-YOLO

数据生成流程

采用五步数据生成方法，具体步骤未详细说明。

包含的子数据集

中文视觉文档 RAG 数据集：ChineseDocRAG (CDR)，首个中文视觉文档 RAG 数据集

引用信息

bibtex @misc{xie2025textlessragendtoendvisualdocument, title={TextlessRAG: End-to-End Visual Document RAG by Speech Without Text}, author={Peijin Xie and Shun Qian and Bingquan Liu and Dexin Wang and Lin Sun and Xiangzheng Zhang}, year={2025}, eprint={2509.07538}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.07538}, }

资源链接

Hugging Face 数据集：https://huggingface.co/datasets/hit12345/textlessrag/tree/main
检索模型：https://huggingface.co/vidore/colqwen-omni-v0.1
生成模型：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
布局模型：https://huggingface.co/collections/juliozhao/doclayout-yolo-670cdec674913d9a6f77b542
论文：https://arxiv.org/abs/2509.07538

搜集汇总

数据集介绍

构建方式

在视觉文档理解领域，SV-DOC数据集的构建采用了系统化的数据工程流程。该流程首先从多领域收集PDF和PPT格式的文档，通过DocLayout-YOLO工具将每页细分为表格、图表、图像和文本块等结构化单元。随后利用商业视觉-语言代理批量生成候选问答对，并经过规则过滤与专业人工标注进行 refinement。最终，通过Doubao TTS API将文本查询转换为超过200种专业语音类型的语音数据，形成双语语音-文档配对资源。

特点

SV-DOC作为首个语音-文档检索增强生成双语基准，其核心特点体现在多模态融合与语言多样性。数据集涵盖中英文语音查询，并与包含图表、表格、自然图像及文本段落的视觉文档构成多模态映射。其检索池规模达42,564张图像，问答对数量为5,947组，覆盖学术、信息图、幻灯片等多元领域。该数据集突破了传统文本查询的局限，通过语音直接驱动视觉文档检索，为无文本化多模态交互提供了标准化评估框架。

使用方法

该数据集的应用遵循端到端语音文档问答流程。研究者可将语音查询输入基于ColQwen-Omni的检索编码器，获取与文档图像嵌入的MaxSim匹配分数，筛选Top-k候选页面。随后通过布局感知重排序机制细化证据单元，利用Qwen2.5-Omni生成器直接融合语音查询与重排后的视觉证据生成语音及文本答案。整个流程无需依赖ASR、OCR或TTS模块，支持研究者评估语音驱动检索在准确性、延迟及多模态理解方面的性能表现。

背景与挑战

背景概述

SV-DOC数据集由哈尔滨工业大学ITNLP实验室与奇虎360智脑AI实验室于2025年联合构建，作为首个支持语音查询的视觉文档检索增强生成双语基准。该数据集聚焦于跨模态文档理解的核心研究问题，通过整合中英文语音查询与多模态文档内容，推动无需文本中间表示的端到端语音-视觉交互范式。其创新性体现在彻底摒弃传统OCR、ASR与TTS技术依赖，直接建立语音信号与视觉文档的语义映射，为语音驱动的高效文档知识检索与问答系统设立新标准，对多模态人工智能与无障碍人机交互领域产生深远影响。

当前挑战

SV-DOC需解决视觉文档语音问答中三大核心挑战：一是跨模态语义对齐难题，需实现语音特征与文档图像嵌入空间的直接映射；二是多模态内容理解复杂性，要求模型同步处理图表、表格、文本与自然图像等异构元素；三是端到端流程优化压力，需在去除OCR、ASR等传统模块前提下保障检索精度与生成质量。构建过程中面临双语语音数据采集与标注的高成本挑战，需协调超过200种专业语音类型；同时需设计布局感知的重排序机制以提升细粒度证据单元检索效果，并克服大规模视觉文档预处理中的计算复杂度问题。

常用场景

经典使用场景

在视觉文档理解领域，SV-DOC数据集为语音驱动的多模态检索增强生成（RAG）研究提供了核心实验平台。该数据集通过整合中英文语音查询与富文本文档图像，支持端到端的语音问答系统开发，典型应用包括直接通过语音输入对图表、表格等结构化文档内容进行知识检索与答案生成。

解决学术问题

SV-DOC首次解决了语音查询与视觉文档知识库间的交互难题，突破了传统方法对OCR、ASR和TTS技术的依赖。其意义在于构建了完全无文本化的多模态推理管道，显著提升了跨模态语义对齐的精度，为语音视觉融合研究提供了可复现的基准框架，推动了多模态大模型在真实场景中的实用化进程。

衍生相关工作

基于SV-DOC衍生的经典工作包括布局感知重排序机制、跨语言语音-视觉对齐模型等。这些研究进一步优化了多模态检索粒度，催生了如DocLayout-YOLO的文档结构解析工具和双语语音编码器，推动了视觉文档理解与语音交互技术的协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集