SDS-KoPub-OCR

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/Forturne/SDS-KoPub-OCR

下载链接

链接失效反馈

官方服务：

资源简介：

SDS-KoPub OCR结果与嵌入数据集是一个专注于韩语公开文档的视觉文档理解资源。该数据集基于SDS-KoPub-VDR-Benchmark语料库，包含40,781页韩文公开文档的OCR布局解析结果和多模态嵌入表示。主要内容包括：1)结构化OCR布局结果(区域划分、标记文本、边界框和标签)；2)每页提取的文本(用于嵌入输入)；3)区域级多模态嵌入(图像+标题)和OCR文本嵌入；4)600个查询嵌入；5)21,052个图像/图表区域裁剪。数据集采用GLM-OCR模型(0.9B)进行文档布局分析，使用Qwen3-VL-Embedding-2B-FP8模型生成2048维嵌入表示。适用于文档问答、视觉问答、信息检索等任务，特别针对韩语文档理解场景。数据规模为10K-100K级别，包含多种文件格式(jsonl, npy, tar.gz)。

创建时间：

2026-02-28

原始信息汇总

SDS-KoPub OCR Results & Embeddings 数据集概述

数据集基本信息

许可证: CC BY 4.0
任务类别: 文档问答、视觉问答
语言: 韩语
标签: OCR、文档理解、嵌入、韩语
规模: 10K<n<100K

数据集描述

本数据集为 SDS-KoPub-VDR-Benchmark 语料库（包含 40,781 页韩语公共文档）提供了 OCR 布局解析结果和视觉语言嵌入。

文件内容

文件	描述	大小
`ocr_results.jsonl`	GLM-OCR 结构化布局结果（区域、Markdown、边界框、标签）	40,781 条记录
`parsed_texts.jsonl`	每页提取的文本（嵌入输入）	40,781 条记录
`embeddings/corpus_regions.npy`	区域多模态嵌入（图像+标题）	(21052, 2048)
`embeddings/region_metadata.jsonl`	区域元数据（页面ID、标题、标签）	—
`embeddings/corpus_ocr_text.npy`	OCR 文本嵌入	(40781, 2048)
`embeddings/queries.npy`	查询嵌入	(600, 2048)
`crops.tar.gz`	图像/图表区域裁剪	21,052 张图像

使用的模型

OCR: GLM-OCR (0.9B，布局通过 PP-DocLayoutV3 实现)
嵌入: Qwen3-VL-Embedding-2B-FP8 (2048 维)

OCR 结果格式

ocr_results.jsonl 中的每一行格式如下： json { "page_id": "doc_123_page_0", "page_idx": 0, "regions": [ {"index": 0, "label": "doc_title", "bbox_2d": [x1, y1, x2, y2], "content": "..."}, {"index": 1, "label": "table", "bbox_2d": [...], "content": "<table>...</table>"}, {"index": 2, "label": "image", "bbox_2d": [...], "content": null} ], "markdown": "# Title

| col1 | col2 | ...", "image_crops": [{"path": "crops/doc_123_page_0_crop_2.jpg", "bbox": [...], "label": "image"}] }

使用方法示例

python import json import numpy as np from huggingface_hub import hf_hub_download

加载 OCR 结果

path = hf_hub_download("Forturne/SDS-KoPub-OCR", "ocr_results.jsonl", repo_type="dataset") with open(path) as f: records = [json.loads(line) for line in f]

加载嵌入

reg_emb = np.load(hf_hub_download("Forturne/SDS-KoPub-OCR", "embeddings/corpus_regions.npy", repo_type="dataset")) txt_emb = np.load(hf_hub_download("Forturne/SDS-KoPub-OCR", "embeddings/corpus_ocr_text.npy", repo_type="dataset")) q_emb = np.load(hf_hub_download("Forturne/SDS-KoPub-OCR", "embeddings/queries.npy", repo_type="dataset"))

检索：余弦相似度（嵌入已进行 L2 归一化）

scores_text = q_emb @ txt_emb.T # (num_queries, num_pages) scores_region = q_emb @ reg_emb.T # (num_queries, num_regions)

生成信息

生成工具: run_b200_pipeline.py
硬件平台: NVIDIA B200 (192GB)

搜集汇总

数据集介绍

构建方式

在文档智能领域，SDS-KoPub-OCR数据集源于对韩国公共文档的深度解析需求。该数据集以SDS-KoPub-VDR-Benchmark语料库为基础，包含40,781页韩文公共文档页面。通过GLM-OCR模型进行结构化布局解析，提取了区域边界框、标记标签及Markdown格式文本，同时利用Qwen3-VL-Embedding模型生成了多模态嵌入表示，涵盖了图像区域与文本内容的向量化特征。

特点

该数据集的核心特征体现在其丰富的多模态表示与精细的结构化标注。它不仅提供原始文档的OCR解析结果，还包含了区域级别的图像裁剪与文本嵌入，支持视觉与文本的双重检索任务。数据格式采用JSONL与NPY标准，确保了高效的数据加载与处理，特别适用于文档理解、跨模态检索等前沿研究场景。

使用方法

研究人员可通过Hugging Face Hub便捷下载数据集文件，利用Python代码加载OCR结果与嵌入向量。嵌入向量已进行L2归一化，支持直接计算余弦相似度以执行文档或区域级别的检索任务。该数据集为评估视觉-语言模型在韩文文档上的性能提供了标准化基准，助力跨模态检索系统的开发与优化。

背景与挑战

背景概述

在文档智能与视觉语言理解领域，针对韩语公开文档的结构化解析与检索需求日益增长。SDS-KoPub-OCR数据集由三星SDS研究团队构建，作为SDS-KoPub-VDR-Benchmark语料库的衍生成果，专注于提供四万余页韩语公共文档的OCR布局解析结果与多模态嵌入表示。该数据集旨在解决韩语文档中复杂版面元素的识别、文本提取以及跨模态语义对齐等核心研究问题，为文档视觉问答与检索任务提供了高质量的基准资源，显著推动了韩语文档理解技术的发展。

当前挑战

该数据集所应对的领域挑战在于韩语文档的版面多样性，其包含表格、图像、标题等异构元素，要求模型具备精确的布局分析与内容理解能力。构建过程中的挑战则体现在大规模韩语文档的OCR处理精度保障，以及利用GLM-OCR与Qwen3-VL-Embedding等先进模型生成结构化布局与高质量嵌入时，需确保多模态数据对齐的一致性与语义完整性。此外，从原始文档中裁剪并标注数万个图像区域，亦对数据处理的自动化流程与质量控制提出了较高要求。

常用场景

经典使用场景

在文档智能与视觉语言理解领域，SDS-KoPub-OCR数据集以其大规模韩文公共文档页面为基石，为研究者提供了经典的跨模态检索与理解实验平台。该数据集通过GLM-OCR模型对文档进行结构化布局解析，并借助Qwen3-VL-Embedding模型生成多模态嵌入，使得学者能够系统评估文本与视觉区域在语义对齐上的效能。典型应用包括构建端到端的文档问答系统，其中模型需同时理解文档的文本内容、表格结构及图像信息，以精准响应复杂查询。

衍生相关工作

围绕该数据集，学术界已衍生出一系列经典研究工作，主要集中在跨模态文档检索与理解模型的优化上。例如，基于其嵌入表示开发的混合检索框架，融合了文本与视觉特征以提升检索精度；亦有研究利用其布局标注训练端到端的文档视觉问答模型，增强对表格和图表的推理能力。这些工作不仅推动了韩文文档处理技术的发展，也为多语言文档智能领域的模型设计与评估提供了重要参考。

数据集最近研究