Llama-Nemotron-VLM-Dataset-v1
收藏Hugging Face2025-08-18 更新2025-08-19 收录
下载链接:
https://huggingface.co/datasets/nvidia/Llama-Nemotron-VLM-Dataset-v1
下载链接
链接失效反馈官方服务:
资源简介:
Llama-Nemotron-VLM-Dataset v1是一个高质量的数据集,支持NVIDIA发布的Llama-3.1-Nemotron-Nano-VL-8B-V1模型。该数据集是一个视觉语言模型(VLM),专注于文档智能,能够理解、查询和总结图像。数据集包含高质量的注释,支持世界级的视觉语言理解。此外,数据集还包含光学字符识别(OCR)数据,用于支持文档理解,包括表格和图表等各种来源和布局。数据集已准备好用于商业用途,并遵循Creative Commons Attribution 4.0国际许可协议。
提供机构:
NVIDIA
创建时间:
2025-08-05
原始信息汇总
Llama-Nemotron-VLM-Dataset v1 数据集概述
基本信息
- 数据集名称:Llama-Nemotron-VLM-Dataset v1
- 所有者:NVIDIA Corporation
- 创建日期:2025年8月8日
- 许可证:主要采用CC BY 4.0许可证,部分子数据集(ocr_4、ocr_5、ocr_7、vqa_9)采用CC BY-SA 4.0许可证
- 任务类别:视觉问答、图像文本到文本、图像到文本
- 规模分类:大于1TB
数据集规模
- 总数据集数量:21个
- 总样本数量:2,863,854个
- 总数据大小:747.86 GB
按类别统计
| 类别 | 样本数量 |
|---|---|
| VQA | 1,917,755 |
| Captioning | 131,718 |
| OCR | 814,381 |
数据结构
数据集包含以下特征字段:
id:字符串类型,样本标识符image:字符串类型,图像数据conversations:序列结构,包含from和value字段metadata:结构体,包含pdf、page_number和url字段
数据划分
数据集包含21个划分,具体包括:
- 2个captioning划分(captioning_1、captioning_2)
- 10个OCR划分(ocr_1至ocr_10)
- 9个VQA划分(vqa_1至vqa_9)
数据集分类
完全合成数据集(3个)
用于OCR的合成数据集,包含随机ASCII、中文或英文字符/单词的渲染图像:
- ocr_1:14,533个样本
- ocr_2:29,108个样本
- ocr_3:14,525个样本
部分合成数据集(2个)
用于OCR的数据集,包含维基百科文本内容的随机布局渲染:
- ocr_4:188,569个样本
- ocr_5:193,310个样本
重新标注的公共图像数据集(13个)
基于公开数据集的重新标注:
- vqa_1:1,278,221个样本
- vqa_2:503,275个样本
- captioning_1:21,953个样本
- captioning_2:109,765个样本
- 其他9个数据集
基于规则的标注数据集(2个)
- vqa_7:15,121个样本
- vqa_8:15,050个样本
内部标注数据集(1个)
基于开放教科书的内部标注:
- vqa_9:46,745个样本
数据收集与标注方法
- 数据收集方法:混合方法(合成、自动化、人工)
- 标注方法:混合方法(合成、自动化、人工)
数据质量处理
采用以下预处理和过滤步骤:
- 选择可用于模型训练的许可样本
- 限制每个来源的最大样本数量
- 使用K-means聚类选择多样化样本
- 修复错误或不一致的标注
- 过滤低质量样本
预期用途
用于训练AI代理系统、聊天机器人、RAG系统和其他AI驱动的应用程序,支持开源模型的持续改进。
数据来源
部分数据集基于以下公开数据集:
- OpenImages
- TextVQA
- DocLayNet
- TabRecSet
- FinTabNet
搜集汇总
数据集介绍

构建方式
在视觉语言模型蓬勃发展的背景下,Llama-Nemotron-VLM-Dataset-v1采用多源异构数据构建策略,通过合成生成、公开数据集重标注及内部标注三种核心方式形成完整体系。合成数据涵盖ASCII字符、中英文单词的随机渲染图像,配合精确OCR标注;重标注过程运用商业化许可模型对现有视觉问答数据集进行增强,引入思维链解释、模板化问答生成等技术;内部标注则基于开放教材进行专业人工标注,确保数据质量的严谨性与多样性。
使用方法
针对视觉语言模型的训练与评估需求,该数据集提供分任务按需加载的灵活使用方案。用户可通过HuggingFace数据集库直接调用21个预设子集,每个子集对应独立的JSONL格式文件。实际应用中需注意不同子集遵循CC-BY-4.0或CC-BY-SA-4.0双许可协议,其中ocr_4、ocr_5等四个子集要求衍生作品采用相同方式共享。建议使用者根据模型训练阶段选择数据组合,如在预训练阶段侧重合成OCR数据,微调阶段则采用重标注的VQA数据以提升模型性能。
背景与挑战
背景概述
随着多模态人工智能技术的迅猛发展,视觉语言模型在文档智能理解领域面临数据质量与多样性的瓶颈。2025年8月,英伟达公司发布了Llama-Nemotron-VLM-Dataset-v1数据集,旨在为文档视觉问答、图像描述生成和光学字符识别任务提供大规模高质量训练数据。该数据集通过融合合成生成与人工标注技术,构建了超过286万条样本的多模态语料,显著提升了模型在DocVQA、ChartQA等专业评测中的性能表现,为构建可商用级文档理解智能体奠定了数据基础。
当前挑战
在文档智能理解领域,该数据集需解决复杂版面结构解析、跨模态语义对齐以及细粒度视觉要素识别等核心难题。构建过程中面临多重挑战:首先需克服合成数据与真实文档间的领域差异,通过生成对抗网络技术增强数据多样性;其次在标注环节需处理表格、公式等非连续文本的结构化标注问题,开发了基于规则模板与链式推理的增强标注流程;最后还需协调不同开源协议的兼容性,确保超过747GB数据资源的合规使用。
常用场景
经典使用场景
在视觉语言模型研究领域,Llama-Nemotron-VLM-Dataset-v1作为多模态文档理解任务的核心训练资源,其经典应用场景聚焦于文档智能分析。该数据集通过融合图像描述生成、光学字符识别和视觉问答三重任务,为模型提供了从像素级特征提取到语义级推理的完整训练范式。特别是在处理复杂文档结构时,模型能够同时解析表格数据、图表信息和文字内容,实现跨模态的深度语义对齐,这种综合能力使得该数据集成为训练新一代视觉语言模型的黄金标准。
解决学术问题
该数据集有效解决了视觉语言理解领域长期存在的标注质量不一致和跨模态对齐困难两大核心问题。通过采用商业化许可模型重新标注主流视觉问答数据集,并引入思维链解释、规则化问答生成等增强技术,显著提升了标注的精确度和语义丰富度。在学术层面,这不仅推动了文档智能分析任务的标准化进程,更为多模态大模型的可解释性研究提供了高质量的数据基础,对突破视觉语言融合的技术瓶颈具有里程碑意义。
实际应用
在实际应用层面,该数据集支撑的模型已广泛应用于企业级文档处理系统,能够自动解析财务报表、技术手册和法律文书等复杂文档。在金融科技领域,系统可精准提取表格中的数值信息并生成结构化分析报告;在教育行业,实现了教材插图的智能标注和跨模态知识检索。这些应用显著提升了专业文档的处理效率,将传统需要人工数小时完成的文档分析任务压缩到秒级响应,为行业数字化转型提供了核心技术支持。
数据集最近研究
最新研究方向
在视觉语言模型快速发展的背景下,Llama-Nemotron-VLM-Dataset-v1作为专为文档智能设计的大规模多模态数据集,正推动着文档理解领域的前沿探索。该数据集通过融合合成OCR数据与重标注的公开图像数据集,为模型训练提供了丰富的视觉问答、图像描述和光学字符识别任务样本。当前研究热点集中于利用该数据集训练具备链式推理能力的视觉语言模型,特别是在文档结构解析、表格信息提取和多模态推理方面取得突破性进展。其高质量标注和商业可用性特性,为构建下一代AI代理系统提供了关键数据支撑,显著提升了模型在DocVQA和ChartQA等权威基准测试中的性能表现。
以上内容由遇见数据集搜集并总结生成



