Llama-Nemotron-VLM-Dataset-v1

Name: Llama-Nemotron-VLM-Dataset-v1
Creator: NVIDIA
Published: 2025-08-18 19:17:09
License: 暂无描述

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/nvidia/Llama-Nemotron-VLM-Dataset-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Llama-Nemotron-VLM-Dataset v1是一个高质量的数据集，支持NVIDIA发布的Llama-3.1-Nemotron-Nano-VL-8B-V1模型。该数据集是一个视觉语言模型（VLM），专注于文档智能，能够理解、查询和总结图像。数据集包含高质量的注释，支持世界级的视觉语言理解。此外，数据集还包含光学字符识别（OCR）数据，用于支持文档理解，包括表格和图表等各种来源和布局。数据集已准备好用于商业用途，并遵循Creative Commons Attribution 4.0国际许可协议。

提供机构：

NVIDIA

创建时间：

2025-08-05

原始信息汇总

Llama-Nemotron-VLM-Dataset v1 数据集概述

基本信息

数据集名称：Llama-Nemotron-VLM-Dataset v1
所有者：NVIDIA Corporation
创建日期：2025年8月8日
许可证：主要采用CC BY 4.0许可证，部分子数据集（ocr_4、ocr_5、ocr_7、vqa_9）采用CC BY-SA 4.0许可证
任务类别：视觉问答、图像文本到文本、图像到文本
规模分类：大于1TB

数据集规模

总数据集数量：21个
总样本数量：2,863,854个
总数据大小：747.86 GB

按类别统计

类别	样本数量
VQA	1,917,755
Captioning	131,718
OCR	814,381

数据结构

数据集包含以下特征字段：

id：字符串类型，样本标识符
image：字符串类型，图像数据
conversations：序列结构，包含from和value字段
metadata：结构体，包含pdf、page_number和url字段

数据划分

数据集包含21个划分，具体包括：

2个captioning划分（captioning_1、captioning_2）
10个OCR划分（ocr_1至ocr_10）
9个VQA划分（vqa_1至vqa_9）

数据集分类

完全合成数据集（3个）

用于OCR的合成数据集，包含随机ASCII、中文或英文字符/单词的渲染图像：

ocr_1：14,533个样本
ocr_2：29,108个样本
ocr_3：14,525个样本

部分合成数据集（2个）

用于OCR的数据集，包含维基百科文本内容的随机布局渲染：

ocr_4：188,569个样本
ocr_5：193,310个样本

重新标注的公共图像数据集（13个）

基于公开数据集的重新标注：

vqa_1：1,278,221个样本
vqa_2：503,275个样本
captioning_1：21,953个样本
captioning_2：109,765个样本
其他9个数据集

基于规则的标注数据集（2个）

vqa_7：15,121个样本
vqa_8：15,050个样本

内部标注数据集（1个）

基于开放教科书的内部标注：

vqa_9：46,745个样本

数据收集与标注方法

数据收集方法：混合方法（合成、自动化、人工）
标注方法：混合方法（合成、自动化、人工）

数据质量处理

采用以下预处理和过滤步骤：

选择可用于模型训练的许可样本
限制每个来源的最大样本数量
使用K-means聚类选择多样化样本
修复错误或不一致的标注
过滤低质量样本

预期用途

用于训练AI代理系统、聊天机器人、RAG系统和其他AI驱动的应用程序，支持开源模型的持续改进。

数据来源

部分数据集基于以下公开数据集：

OpenImages
TextVQA
DocLayNet
TabRecSet
FinTabNet

搜集汇总

数据集介绍

构建方式

在视觉语言模型蓬勃发展的背景下，Llama-Nemotron-VLM-Dataset-v1采用多源异构数据构建策略，通过合成生成、公开数据集重标注及内部标注三种核心方式形成完整体系。合成数据涵盖ASCII字符、中英文单词的随机渲染图像，配合精确OCR标注；重标注过程运用商业化许可模型对现有视觉问答数据集进行增强，引入思维链解释、模板化问答生成等技术；内部标注则基于开放教材进行专业人工标注，确保数据质量的严谨性与多样性。

使用方法

针对视觉语言模型的训练与评估需求，该数据集提供分任务按需加载的灵活使用方案。用户可通过HuggingFace数据集库直接调用21个预设子集，每个子集对应独立的JSONL格式文件。实际应用中需注意不同子集遵循CC-BY-4.0或CC-BY-SA-4.0双许可协议，其中ocr_4、ocr_5等四个子集要求衍生作品采用相同方式共享。建议使用者根据模型训练阶段选择数据组合，如在预训练阶段侧重合成OCR数据，微调阶段则采用重标注的VQA数据以提升模型性能。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，视觉语言模型在文档智能理解领域面临数据质量与多样性的瓶颈。2025年8月，英伟达公司发布了Llama-Nemotron-VLM-Dataset-v1数据集，旨在为文档视觉问答、图像描述生成和光学字符识别任务提供大规模高质量训练数据。该数据集通过融合合成生成与人工标注技术，构建了超过286万条样本的多模态语料，显著提升了模型在DocVQA、ChartQA等专业评测中的性能表现，为构建可商用级文档理解智能体奠定了数据基础。

当前挑战

在文档智能理解领域，该数据集需解决复杂版面结构解析、跨模态语义对齐以及细粒度视觉要素识别等核心难题。构建过程中面临多重挑战：首先需克服合成数据与真实文档间的领域差异，通过生成对抗网络技术增强数据多样性；其次在标注环节需处理表格、公式等非连续文本的结构化标注问题，开发了基于规则模板与链式推理的增强标注流程；最后还需协调不同开源协议的兼容性，确保超过747GB数据资源的合规使用。

常用场景

经典使用场景

在视觉语言模型研究领域，Llama-Nemotron-VLM-Dataset-v1作为多模态文档理解任务的核心训练资源，其经典应用场景聚焦于文档智能分析。该数据集通过融合图像描述生成、光学字符识别和视觉问答三重任务，为模型提供了从像素级特征提取到语义级推理的完整训练范式。特别是在处理复杂文档结构时，模型能够同时解析表格数据、图表信息和文字内容，实现跨模态的深度语义对齐，这种综合能力使得该数据集成为训练新一代视觉语言模型的黄金标准。

解决学术问题

该数据集有效解决了视觉语言理解领域长期存在的标注质量不一致和跨模态对齐困难两大核心问题。通过采用商业化许可模型重新标注主流视觉问答数据集，并引入思维链解释、规则化问答生成等增强技术，显著提升了标注的精确度和语义丰富度。在学术层面，这不仅推动了文档智能分析任务的标准化进程，更为多模态大模型的可解释性研究提供了高质量的数据基础，对突破视觉语言融合的技术瓶颈具有里程碑意义。

实际应用

在实际应用层面，该数据集支撑的模型已广泛应用于企业级文档处理系统，能够自动解析财务报表、技术手册和法律文书等复杂文档。在金融科技领域，系统可精准提取表格中的数值信息并生成结构化分析报告；在教育行业，实现了教材插图的智能标注和跨模态知识检索。这些应用显著提升了专业文档的处理效率，将传统需要人工数小时完成的文档分析任务压缩到秒级响应，为行业数字化转型提供了核心技术支持。

数据集最近研究