five

OpenGVLab/Mono-InternVL-2B-Synthetic-Data

收藏
Hugging Face2025-07-22 更新2025-04-08 收录
下载链接:
https://hf-mirror.com/datasets/OpenGVLab/Mono-InternVL-2B-Synthetic-Data
下载链接
链接失效反馈
官方服务:
资源简介:
Mono-InternVL-2B合成数据集用于Mono-InternVL-2B模型的S1.2阶段训练,包含2.58亿图像的简短字幕,这些图像来源于Laion-2B、Coyo-700M和SAM(en)。数据集共有259,064,832条记录,分布在3,072个JSONL文件中,每个文件包含84,331条记录。

The Mono-InternVL-2B Synthetic Data dataset is used for the training of the S1.2 stage of the Mono-InternVL-2B model. It consists of short captions for 258 million images sampled from Laion-2B, Coyo-700M, and SAM(en). The dataset contains a total of 259,064,832 records, spread across 3,072 JSONL files, with each file containing 84,331 records.
提供机构:
OpenGVLab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作