Nemotron-VLM-Dataset-V2

arXiv2025-11-26 更新2025-11-27 收录

下载链接：

https://github.com/NVIDIA-NeMo/Curator/tree/experimental/experimental/nvpdftex

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-VLM-Dataset-V2是由英伟达构建的大规模多模态训练数据集，专为文档解析与OCR模型优化设计。该数据集融合合成数据、公共资源及人工标注样本，涵盖多语言文本、表格和密集OCR内容，数据量达数百万级，来源包括arXiv、Common Crawl及专业表格数据集。其创建通过创新管道实现，如NVpdftex工具链精准提取字符级边界框与语义标签，并辅以机器翻译和样式增强。该数据集主要应用于提升轻量级OCR模型在复杂文档理解、布局分析和多格式输出等领域的性能，旨在解决现代检索系统与语言模型对结构化文档信息的高精度提取需求。

Nemotron-VLM-Dataset-V2 is a large-scale multimodal training dataset developed by NVIDIA, specifically optimized for document parsing and OCR models. This dataset integrates synthetic data, publicly available resources, and manually annotated samples, covering multilingual text, tables, and dense OCR content, with a total of millions of samples. Its data sources include arXiv, Common Crawl, and professional table datasets. The construction of this dataset employs an innovative pipeline: the NVpdftex toolchain accurately extracts character-level bounding boxes and semantic labels, and the pipeline is further supplemented by machine translation and style augmentation. It is primarily designed to improve the performance of lightweight OCR models in complex document understanding, layout analysis, multi-format output and other related domains, aiming to address the demand for high-precision extraction of structured document information by modern retrieval systems and language models.

提供机构：

英伟达

创建时间：

2025-11-26

搜集汇总

数据集介绍

构建方式

在文档解析技术日益成熟的背景下，Nemotron-VLM-Dataset-V2的构建采用了多源数据融合策略。该数据集整合了合成数据、公开数据集及人工标注样本，通过NVpdftex流水线生成高质量文档语料，该流水线将LaTeX编译与结构化输出提取相结合，精确保留字符级边界框和语义标签。此外，数据集还引入多语言机器翻译增强、字体与布局变换等数据增广技术，覆盖科学文献、表格、密集文本等多种场景，确保了数据多样性与标注一致性。

特点

作为面向视觉语言模型训练的专业资源，该数据集具备多模态标注的突出特性。其标注体系涵盖格式化文本（Markdown/LaTeX）、边界框坐标及语义类别，支持对文档布局、阅读顺序和复杂元素（如公式、表格）的精细解析。数据集包含多语言内容，涵盖英语、中文等六种语言，并通过合成数据强化了对密集文本和异构表格的解析能力。这种综合标注框架为模型提供了跨域泛化与高精度结构理解的基础。

使用方法

在文档智能研究领域，该数据集可直接用于端到端视觉语言模型的训练与评估。用户可通过Huggingface平台获取模型权重与数据子集，利用预定义提示词接口（如Maximal-Information Prompt）统一处理异构标注任务。数据集支持边界框回归、语义分类及多语言OCR等任务，其标准化输出格式便于与现有基准（如OmniDocBench、GOT）进行性能对比。优化后的NIM容器进一步提升了部署效率，适用于大规模批量处理或边缘计算场景。

背景与挑战

背景概述

在文档智能领域，光学字符识别技术已从单纯提取图像中的字符，发展为需要理解复杂布局、语义类别及多模态结构的综合任务。Nemotron-VLM-Dataset-V2由NVIDIA于2025年发布，作为Nemotron-Parse-1.1模型的训练基础，其核心目标在于解决端到端视觉语言模型在文档解析中的多任务协同问题。该数据集整合了合成数据、公共标注及人工标注资源，覆盖多语言科学文档与复杂表格，显著提升了轻量级模型在格式化文本提取、边界框预测及语义分类方面的性能，为文档理解研究提供了高质量基准。

当前挑战

该数据集致力于应对文档解析领域的核心挑战，包括多模态信息融合、复杂布局理解以及跨语言泛化能力。在构建过程中，需克服标注一致性难题，例如在合成数据生成时需保持字符级边界框与语义标签的精确对齐；同时，多语言数据稀缺性要求通过机器翻译与增强技术扩展语料多样性，而长文档处理与浮动元素排序则对模型架构设计提出了更高要求。

常用场景

经典使用场景

在文档智能分析领域，Nemotron-VLM-Dataset-V2作为轻量级OCR模型的训练基础，其经典应用场景聚焦于多模态文档解析任务。该数据集通过整合合成数据与人工标注样本，支持模型在通用OCR、结构化表格解析、数学公式提取及语义块分类等任务中实现端到端学习。其训练数据涵盖科学文献、商业报表等多类型文档，使模型能够准确还原文档的阅读顺序与布局信息，为复杂文档的数字化处理提供可靠支撑。

衍生相关工作

该数据集的发布催生了系列创新性研究工作，其中最具代表性的是基于NVpdftex管线的多语言数据增强方法。相关研究团队通过LaTeX级字体与布局增强技术，构建了包含八种语言的科学文献数据集。同时，该数据集支撑了DocLayNet标注体系的扩展实践，推动了阅读顺序预测、浮动元素定位等细分方向的发展，为后续GOT-OCR2.0、DeepSeek-OCR等模型的迭代优化提供了关键训练基准。

数据集最近研究