Nemotron-Image-Training-v3

Name: Nemotron-Image-Training-v3
Creator: NVIDIA
Published: 2026-04-28 16:35:01
License: 暂无描述

Hugging Face2026-04-28 更新2026-04-30 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-Image-Training-v3

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron Image Training v3 是一个面向视觉-语言模型训练的多模态图像数据集，由 NVIDIA 公司于2026年4月28日发布。该数据集包含76个子数据集，总计约690万样本和395.6亿标记(token)，是前代v2版本的扩展版本。数据集采用混合数据来源(人工标注与合成数据)和标准化JSONL对话格式，每个子数据集都附带数据卡片说明来源、许可和媒体布局信息。数据内容涵盖广泛的视觉-语言任务类型，包括图像问答(QA)、OCR、推理等。数据集采用CC-BY-4.0许可，适用于商业和非商业用途，需要用户自行从上游来源获取对应的图像/视频媒体文件。技术特征包括：1) 结构化消息格式包含角色、内容类型(文本/图像/视频/音频)等字段；2) 兼容Megatron Energon风格的多模态加载；3) 提供详细的数据集组成表格，列明各子集的样本量、数据类型和来源处理信息。

提供机构：

NVIDIA

创建时间：

2026-04-17

原始信息汇总

好的，这是根据您提供的数据集详情页面信息生成的概述。

数据集概述：Nemotron Image Training v3

基本信息

数据集名称: Nemotron Image Training v3
创建者: NVIDIA Corporation
创建日期: 2026-04-28
许可证: Creative Commons Attribution 4.0 International (CC-BY-4.0)
数据集规模: 约 1M 至 10M 样本 (具体为约 690 万样本)
总 Token 数: 约 395.6 亿
子数据集数量: 76 个

任务类型与数据格式

任务类别: 视觉问答、图像到文本生成
数据格式: 文本 (JSONL) 和图像 (JPEG/PNG)
数据格式详情: 每条数据包含 id (字符串) 和 messages (消息列表)。消息列表中的每条消息包含 role (角色) 和 content (内容序列)，内容序列中可包含 text (文本), image (图像), video (视频), audio (音频) 和 metadata (元数据) 等字段。

数据收集与标注

数据收集方法: 混合（人工与合成数据）
标注方法: 合成数据

数据集组成与子集概览

数据集由 76 个子数据集组成，每个子数据集都包含一个训练集 JSONL 文件和一个描述其来源、许可和媒体布局的数据集卡。以下是部分子数据集信息：

子数据集名称	样本数量	估计Token数	任务类型	数据来源与处理	许可条款
aokvqa_1	19.2 K	21.35 M	图像，问答，推理	公共数据，Qwen-3.5 标注	CC-BY-4.0
aokvqa_2	12.9 K	14.97 M	图像，问答，推理	公共数据，Qwen-3.5 标注，Gemini-3-Flash 验证	CC-BY-4.0
cc3m	867.1 K	581.90 M	图像，OCR，问答	公共数据，Qwen-3 标注	CC-BY-4.0
ccpdf_zh_01	21.5 K	111.81 M	图像，OCR，问答，推理	公共数据，Qwen-3.5 标注	CC-BY-4.0
ccpdf_zh_02	139.3 K	688.88 M	图像，OCR，问答，推理	公共数据，Qwen-3.5 标注	CC-BY-4.0
chartqa_1	-	-	图像，图表问答，推理	-	-
docvqa	-	-	图像，文档问答	-	-
flickr30k	-	-	图像，图像描述	-	-
long_document_arxiv_1	-	-	图像，长文档问答	-	-
pubtables_1m	-	-	图像，表格识别	-	-

(注：“-”表示数据未在提供的README中列出具体数值)

使用方法与注意事项

预期用途: 用于训练和评估视觉-语言模型。
媒体文件: 媒体文件通过引用（JSONL中的路径或URL）提供，用户需从上游来源下载或访问对应图像/视频。
格式兼容性: JSONL 格式与 NVIDIA Megatron Energon 框架兼容。
商业可用性: 该数据集可用于商业及非商业用途，但需遵守各个子数据集的许可和底层媒体来源的条款。

搜集汇总

数据集介绍

构建方式

在视觉-语言模型迅猛发展的时代背景下，高质量多模态训练数据的匮乏成为制约模型性能提升的关键瓶颈。Nemotron-Image-Training-v3数据集应运而生，其构建方式独具匠心：采用人工标注与合成数据相结合的混合采集策略，系统性地整合了76个子数据集，涵盖视觉问答、图像描述、文档理解、图表推理等多元任务。每个子数据集以标准化的对话JSONL格式呈现，数据以引用形式指向原始图像或视频资源，用户需依据各子数据集说明文档自行获取并组织媒体文件。该数据集总计包含约690万样本与395.6亿词元，规模宏大且结构统一，为视觉语言模型的训练奠定了坚实基础。

特点

Nemotron-Image-Training-v3数据集展现出显著的多元性与实用性特征。其涵盖的76个子数据集横跨A-OKVQA、ChartQA、DocVQA、CC3M、PMC-VQA等多个经典基准，任务类型从基础的图像文本识别到复杂的逻辑推理与多轮对话，几乎覆盖视觉语言研究的全部核心场景。数据集格式与Megatron-Energon框架高度兼容，便于在大规模分布式训练环境中高效加载。尤为值得关注的是，所有子数据集均采用CC-BY-4.0许可协议发布，允许商业与非商业用途，极大降低了研究者和开发者的使用门槛。

使用方法

使用Nemotron-Image-Training-v3数据集时，研究者需遵循标准的多模态数据加载流程。首先从Hugging Face下载对应子数据集的JSONL文件，每条记录包含id与messages字段，其中messages结构支持多轮对话，内容可包含文本、图像、视频、音频及元数据。随后需根据各子数据集README中的指引，从上游数据源获取原始媒体文件，并本地组织文件路径以确保JSONL中的引用能够正确解析。完成媒体对齐后，即可利用Megatron-Energon等框架进行数据加载与模型训练，或直接应用于视觉语言模型的评估与微调任务。

背景与挑战

背景概述

Nemotron-Image-Training-v3是英伟达公司于2026年4月发布的大规模图像中心多模态训练数据集，旨在推动视觉-语言模型的研究与应用。该数据集在先前版本的基础上进行了显著扩展，整合了76个子数据集，共计约690万样本和395.6亿词元，覆盖了视觉问答、图像文本生成、OCR、推理等多种任务类型。数据集采用人工与合成相结合的混合采集方法，并通过标准化对话JSONL格式统一管理，便于研究者高效加载与使用。其发布为多模态领域提供了丰富、多样且高质量的训练资源，对于提升模型在复杂视觉理解任务中的表现具有重要意义。

当前挑战

该数据集所应对的领域挑战在于，当前视觉-语言模型常因训练数据规模有限、任务覆盖单一而难以实现泛化，Nemotron-Image-Training-v3通过整合海量、多源、多任务的图像数据，旨在缓解模型在各类视觉理解场景下的性能瓶颈。在构建过程中，数据集面临了多项核心难题：一是如何从公开数据源中高效获取并清洗图像与文本，确保数据质量与一致性；二是标准化不同来源、不同格式的标注信息，统一为通用的多轮对话JSONL结构；三是处理跨语种（如中文PDF、英文图表）数据的对齐与融合，以及媒体文件引用路径的管理，这些环节均需大量工程优化与验证，方能保证数据集的实用性与可靠性。

常用场景

经典使用场景

在视觉语言模型的研究浪潮中，Nemotron-Image-Training-v3作为一项大规模、多子集的图像中心多模态训练资源，被广泛用于基础模型的预训练与指令微调。该数据集汇聚了约690万样本与近400亿token，涵盖视觉问答、图文理解、光学字符识别、图表与文档分析、空间推理及长文档处理等众多任务子集。研究人员常利用其统一的多轮对话JSONL格式，将图像、文本与结构化问答内容对齐，训练具备强泛化能力的视觉语言模型，使之能够理解复杂场景并生成合乎逻辑的应答。该数据集的规模与多样性使其成为构建新一代多模态对话系统与视觉推理agent的核心训练材料。

解决学术问题

传统视觉语言数据集往往局限于单一任务或特定领域，难以支撑模型在多种视觉理解任务上的泛化能力。Nemotron-Image-Training-v3通过整合76个子数据集，系统性地解决了多任务联合训练中数据来源混杂、标注格式不统一及任务覆盖不足等关键问题。它将人工标注与合成数据有机结合，为视觉问答、图表推理、文档解析、空间关系理解等学术问题提供了标准化的大规模训练基线。该数据集的发布推动了视觉语言模型在零样本跨任务迁移、多模态信息融合以及复杂视觉推理等方向上的突破，为评估模型在真实场景下的综合理解能力奠定了坚实的数据基础。

衍生相关工作

Nemotron-Image-Training-v3的出现催生了一系列衍生的学术探索与技术迭代。研究者以其为基础，开发了适用于长文档理解的多模态注意力机制模型，提升了模型在密集文本与图表交织场景下的表现。部分工作围绕数据集的合成标注策略展开，探索了诸如Qwen与Gemini系列模型在数据自动标注与质量校验中的协同作用。此外，该数据集与Megatron-Energon训练框架的兼容性，推动了大规模分布式多模态训练流程的标准化。后续工作还包括基于该数据集构建的视觉语言基准测试集合，以及针对特定领域（如医学、金融）的微调版本，进一步拓展了其在细分场景下的研究边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集