OCR-Synthetic-Multilingual-v1

Name: OCR-Synthetic-Multilingual-v1
Creator: NVIDIA
Published: 2026-04-21 07:01:02
License: 暂无描述

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/nvidia/OCR-Synthetic-Multilingual-v1

下载链接

链接失效反馈

官方服务：

资源简介：

OCR-Synthetic-Multilingual-v1 是一个大规模合成的多语言OCR训练数据集，专为文本检测和识别任务设计。该数据集由NVIDIA Corporation使用经过大量修改和扩展的SynthDoG（合成文档生成器）工具生成，支持英语、日语、韩语、俄语、简体中文和繁体中文六种语言。数据集采用HDF5格式存储，每个文件包含图像数据、文本标注、图像尺寸、完整文本标签、JPEG质量参数和样本ID等信息。标注信息采用JSON格式，包含单词级、行级和段落级的边界框标注以及阅读顺序图。数据集总样本量超过1200万，存储容量达5.45TB，按语言分为不同子目录，每个语言又分为训练集、测试集和验证集。该数据集被用于训练Nemotron OCR v2模型，适用于机器学习研究人员和AI工程师进行OCR相关研究，采用CC BY 4.0许可协议，允许商业和非商业用途。

提供机构：

NVIDIA

创建时间：

2026-04-09

搜集汇总

数据集介绍

构建方式

OCR-Synthetic-Multilingual-v1数据集由NVIDIA公司基于Donut项目中的SynthDoG（Synthetic Document Generator）管线深度改造与扩展后生成，属于大规模合成OCR训练数据。该管线经过显著增强，支持多语种渲染、自定义特效，并输出结构化的词级、行级与段落级边界框标注，同时嵌入阅读顺序图（relation_graph）以捕捉文本逻辑流。所有样本以HDF5格式存储，便于高效读写，每个文件包含JPEG编码图像、JSON格式的完整标注信息、图像尺寸、全文文本标签、JPEG质量参数及唯一样本标识符。

特点

该数据集涵盖英语、日语、韩语、俄语、简体中文与繁体中文六种语言，总计超过1200万样本，训练、测试与验证集分布均衡，总量达5.45TB。每个样本均提供词、行、段落三层次边界框及四角四边形坐标，并辅以阅读顺序关系图，为文本检测与识别模型提供细粒度监督。数据格式采用HDF5紧凑存储，兼顾空间效率与随机访问性能，天然适配大规模分布式训练流程。

使用方法

研究人员可通过Python的h5py库读取HDF5文件，利用PIL解码JPEG图像并加载JSON格式的边界框标注，直接用于文本检测与识别模型的训练与评估。数据集按语言和子集（train/test/validation）组织为独立文件夹，便于按需筛选与加载。此数据集已用于训练NVIDIA Nemotron OCR v2多语种OCR模型，开发者亦可基于此数据微调或开发适用于文档理解、信息检索等场景的定制化OCR系统。

背景与挑战

背景概述

OCR-Synthetic-Multilingual-v1数据集由英伟达公司（NVIDIA Corporation）于2026年4月15日创建，旨在为多语言文本检测与识别任务提供大规模合成训练数据。该数据集基于Kim等人提出的Donut项目中的SynthDoG（合成文档生成器）进行深度改造与扩展，生成涵盖英语、日语、韩语、俄语、简体中文及繁体中文共六种语言的逾1225万张图像。其核心研究问题在于弥补真实多语言OCR标注数据稀缺、成本高昂的短板，通过高质量的合成数据推动通用多语言OCR模型的发展。该数据集被用于训练英伟达的Nemotron OCR v2模型，该模型属于NeMo Retriever系列，在信息检索与文档理解领域展现出卓越性能，对推动多语言OCR技术的工业化应用产生了重要影响。

当前挑战

该数据集所解决的领域挑战主要包括：多语言文本检测与识别中真实标注数据的获取困难，尤其是非拉丁语系（如中日韩文）因字符集庞大、排版复杂而导致的标注成本极高；以及模型在跨语言、跨字体、跨版面场景下的泛化能力不足。在构建过程中，面临的主要挑战包括：如何对SynthDoG生成器进行深度修改以支持多语言文字渲染、自定义排版效果及复杂版面结构；如何设计结构化的边界框标注体系（词级、行级、段级）并编码阅读顺序关系图，确保合成数据能有效训练模型理解文档逻辑流；以及如何在HDF5格式中高效存储超过5TB的海量图像与标注数据，兼顾读取速度与存储效率。

常用场景

经典使用场景

OCR-Synthetic-Multilingual-v1数据集的核心应用场景在于大规模多语言文本检测与识别任务的模型训练。该数据集基于SynthDoG生成管线深度改造而成，覆盖英语、日语、韩语、俄语及简繁体中文六大语种，总计超过1225万样本。每个样本以HDF5格式存储，包含JPEG编码图像与多层级结构标注（词级、行级、段落级边界框及阅读顺序关系图），为训练端到端OCR系统提供了丰富且精确的监督信号。研究者可借助该数据集构建能够同时处理文字定位与内容转录的深度学习模型，尤其适用于需要高精度多语言识别的场景，如文档数字化、场景文字理解及多语种信息提取等任务。

解决学术问题

在学术研究层面，该数据集有效解决了多语言OCR领域中真实标注数据稀缺、覆盖不全且成本高昂的核心瓶颈。传统OCR数据集往往局限于单一语言或少量语种，且人工标注周期长、一致性难以保证，限制了跨语言模型泛化能力的研究。OCR-Synthetic-Multilingual-v1通过合成生成方式，大规模提供了覆盖六种主要语言的结构化标注数据，使得研究者能够深入探索多语言文本检测与识别的联合建模问题。该数据集的出现推动了针对复杂版式、多语言文字排列规律及阅读顺序推理等前沿课题的研究，显著提升了模型在跨语言场景下的迁移性能与鲁棒性，为构建通用OCR系统奠定了坚实的数据基础。

衍生相关工作

该数据集衍生出的经典工作主要包括NVIDIA Nemotron OCR v2模型的提出与发布，该模型依托此大规模合成数据，在检测、识别及关系建模组件上取得了显著性能突破。此外，基于该数据集的合成数据生成方法论也催生了多项后续研究，例如改进型SynthDoG管线中引入的多语言渲染策略、层次化边界框标注格式及阅读顺序图结构，这些设计被后续工作广泛借鉴，用于构建更复杂的文档理解系统。同时，该数据集作为训练基准，推动了多语言OCR领域的模型评估标准化，激发了学术界与工业界围绕大规模合成数据与真实数据协同训练、跨语言迁移学习等方向开展更深入的探索，进一步丰富了相关研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集