nvidia/Nemotron-Image-Training-v3

Name: nvidia/Nemotron-Image-Training-v3
Creator: nvidia
Published: 2026-04-28 08:35:01
License: 暂无描述

Hugging Face2026-04-28 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/nvidia/Nemotron-Image-Training-v3

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron Image Training v3 是一个以图像为中心的多模态训练数据集，用于视觉-语言模型。类似于 Nemotron-VLM-Dataset v2，它是一个大规模、多子数据集版本，每个子数据集都附带一个标准化的对话 JSONL 文件和一个描述数据来源、许可和媒体布局的数据集卡片。Nemotron Image Training v3 在 v2 的基础上扩展了 76 个子数据集，总计约 6.9M 样本和 39.56B 标记，涵盖了广泛的以图像为中心的视觉-语言任务，使用了人工标注和合成生成数据的混合。数据集格式包括文本 (.jsonl) 和图像 (.jpeg, .png)，适用于商业和非商业用途。

Nemotron Image Training v3 is a collection of image-centric multimodal training data for vision–language models. Similar to Nemotron-VLM-Dataset v2, it was curated as a large-scale, multi-subdataset release where each subset ships a standardized conversation JSONL alongside a dataset card describing sources, licensing, and media layout. Nemotron Image Training v3 expands on v2 with 76 subdatasets totaling approximately 6.9M samples and 39.56B tokens, covering a broad range of image-centric vision–language tasks using a mix of human-annotated and synthetically generated data. The dataset format includes text (.jsonl) and images (.jpeg, .png), and it is ready for commercial/non-commercial use.

提供机构：

nvidia

5,000+

优质数据集

54 个

任务类型

进入经典数据集