SDS-KoPub-VDR-Benchmark

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/SamsungSDS-Research/SDS-KoPub-VDR-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

SDS KoPub-VDR是一个韩国公共文档视觉文档检索任务的数据集，包含真实的政府文档图像和对应的自然语言查询、答案页面以及地面真实答案。该数据集旨在评估AI模型对视觉布局、表格、图表和图像的全面理解，以准确找到相关信息。

创建时间：

2025-10-29

原始信息汇总

SDS-KoPub-VDR 数据集概述

数据集基本信息

名称: SDS-KoPub-VDR
类型: 视觉文档检索基准数据集
语言: 韩语、英语
许可证: CC-BY-SA-4.0
规模: 10K-100K
任务类别: 视觉文档检索
标签: 多模态、检索、问答、公共领域、视觉文档检索、RAG

核心特征

真实公共数据: 包含多样化的韩国真实公共文档图像
多模态设计: 文本查询与页面级视觉证据和答案配对
超越文本匹配: 测量文档级视觉理解和检索能力

数据构成

文档来源分布

来源	主题	文档数量	页面数量	平均词数/页	URL
NAS	外交趋势、国际事务报告	7	366	215.45	https://nas.na.go.kr/nas/bbs/BNAS1011/list.do?menuNo=1800043
NARS	行政行为、立法案例报告	125	8,176	180.22	https://www.nars.go.kr/
NABO	财政分析、项目评估报告	2	310	278.41	https://www.nabo.go.kr/
PRISM	社会、环境和产业政策研究	122	31,500	244.23	https://www.prism.go.kr
MOLEG	法律指南、法规解释、案例研究	105	429	218.69	https://www.easylaw.go.kr

数据集结构

组件配置

QA数据集: SDS-KoPub-QA.parquet
文档元数据: SDS-KoPub-annotations.parquet

文档元数据结构

file_id: 唯一文档标识符
file_name: 原始文档名称
down_url: 文档公共下载链接
page_indices: 包含的页面索引列表
query_indices: 链接的查询-答案索引列表
indication_of_the_source: 作品来源和许可证

语料库结构

id: 页面唯一标识符
file_name: 源文档名称
image: 渲染的页面图像
text: 使用PdfReader提取的文本
ocr: 原始OCR输出
总行数: 40,781

QA数据集结构

id: 证据页面ID
query: 自然语言问题
answer: 真实答案
type: 查询模态类型
domain: 文档领域或类别
ground_truth: 真实证据页面索引

统计信息

文档总数: 361
页面总数: 40,781
QA对数量: 600
领域数量: 6（社会、环境、教育、工业、外交、金融）
模态类型: 文本/视觉/跨模态

创建流程

QA生成: 使用GPT-4o和Qwen2.5-VL-72B自动生成多模态QA对
自动验证: 使用GPT-4.5进行语义验证
人工专家评审: 领域研究人员进行完整手动审查

贡献者

Jaehoon Lee
Sohyun Kim
Wanggeun Park
Geun Lee
Seungkyung Kim
Minyoung Lee

搜集汇总

数据集介绍

构建方式

在构建SDS-KoPub-VDR数据集的过程中，研究团队采用了一种多阶段流水线方法以确保多模态问答对生成的真实性与可靠性。首先利用GPT-4o和Qwen2.5-VL-72B等先进大语言模型，基于预处理后的文档图像、OCR文本及元数据自动生成问答对。通过指令引导、角色增强和动态少样本提示三种策略，模型能够模拟真实用户场景生成具有领域特性的问题。随后通过GPT-4.5进行语义验证，严格评估问题与页面内容的关联性、答案的证据忠实度以及是否存在幻觉现象。最终由领域专家通过定制化标注工具进行人工复核，确保每个问答对在清晰度、准确性和证据对齐度方面达到标准。

使用方法

研究人员可通过数据集的模块化结构开展视觉文档检索任务。数据集包含三个核心组件：文档元数据文件记录文档与页面的映射关系，多模态语料库提供页面的图像、文本和OCR数据，问答数据集则包含问题、答案及证据页面索引。使用时可先加载文档元数据建立文档体系，再通过问答数据集中的问题索引定位相关页面，最后结合多模态语料库中的视觉与文本信息进行联合推理。这种结构支持端到端的检索系统评估，既可用于训练多模态检索模型，也能作为基准测试平台验证模型在真实政务场景下的跨模态理解能力。

背景与挑战

背景概述

视觉文档检索作为多模态人工智能的重要分支，旨在实现文本查询与视觉文档内容的精准匹配。SDS-KoPub-VDR基准数据集由三星研究院团队于2024年构建，聚焦韩国公共文档领域，涵盖外交政策、行政法规、财政分析等六大主题的361份真实文档。该数据集通过融合文档图像、OCR文本与结构化元数据，推动模型超越传统文本匹配，实现对表格、图表等视觉元素的语义理解，为政府信息公开与智能问答系统提供了关键评估基准。

当前挑战

该数据集需解决公共文档中视觉元素与文本内容的多模态对齐难题，包括表格结构解析、图表语义提取等跨模态推理任务。构建过程中面临三重挑战：需通过GPT-4o与Qwen2.5-VL-72B生成符合真实场景的问答对，同时利用动态少样本提示技术保持领域一致性；自动化验证环节需通过GPT-4.5严格检测答案忠实度与幻觉现象；最终需经领域专家对600组问答对进行人工复核，确保证据对齐与模态适配的精确性。

常用场景

经典使用场景

在视觉文档检索领域，SDS-KoPub-VDR数据集作为评估多模态理解能力的基准工具，其经典应用体现在对韩国公共文档的跨模态信息定位任务中。该数据集通过结合图像、文本和OCR信息，要求模型不仅识别文字内容，还需解析表格、图表等视觉元素，从而精准匹配自然语言查询与对应文档页面。这种设计有效模拟了真实场景中用户从复杂版式文档中提取关键信息的过程，为多模态检索模型提供了标准化测试环境。

解决学术问题

该数据集主要解决了传统文本检索模型在视觉丰富文档中理解力不足的学术难题。通过引入多模态证据对齐机制，它推动了文档布局理解、视觉问答交叉推理等研究方向的发展。其意义在于建立了首个面向韩语公共领域的视觉文档检索基准，填补了非英语多模态检索研究的空白，为评估模型在真实政务场景中的认知能力提供了重要依据。

实际应用

在实际应用层面，该数据集支撑的智能文档处理系统可广泛应用于政务服务平台。公民可通过自然语言提问直接获取政策文件中的关键信息，大幅提升公共服务效率。司法机构能借助该系统快速定位案例法条，研究机构则可自动化分析大量政府报告，这些应用显著降低了专业文档的理解门槛，推动了政务数字化进程。

数据集最近研究