Infinity-MM|多模态数据数据集|模型训练数据集
收藏Infinity-MM 数据集概述
数据集简介
Infinity-MM 是一个大规模的多模态指令数据集,包含数千万个样本。通过质量过滤和去重,数据集具有高质量和多样性。数据集通过开源模型和标注系统生成合成数据,使用详细的图像标注和多样的问题生成。
数据集更新
- 2024/10/24: Stage 2、Stage 3 和 Stage 4 的数据已转移,Stage 1 的数据将于 2024/11/1 完成传输。
数据集分类
| 数据阶段 | 数据类别 | 数据量 | 数据组成 |
|---|---|---|---|
| Stage 1 | 图像-标题数据 | 10M | 标题数据 10M |
| Stage 2 | 通用视觉指令数据 | 24.4M | 通用数据 7.1M, 通用OCR数据 2.6M, 文档/图表/屏幕数据 5.8M, 数学/推理数据 1.3M, 文本指令数据 7.6M |
| Stage 3 | 选择性视觉指令数据 | 6M | LLaVA-onevision 数据 3.5M, Infinity-Instruct 1.3M, Docmatix 数据 1.2M |
| Stage 4 | GPT4 & 合成数据 | 3M | GPT4 生成数据 1.7M, 合成数据 0.8M, 特定任务数据 0.4M, Infinity-Preference 数据 0.1M |
数据格式示例
json { "id": "10", "source": "llava", "conversations": [ { "from": "human", "value": "<image> Can you create a descriptive poem about the scene?" }, { "from": "gpt", "value": "Upon a plate of verdant hue, A cluster of roasted nuts we view. Cashews golden, shining bright, Almonds dark, a roasted delight. Sprinkled seeds of sesame light, Enhancing flavors, a gentle bite. On white wood they rest in grace, A rustic charm, a peaceful place. Simple joys in a vibrant array, A perfect treat to start the day." } ], "image": "/path/of/the/image", "ram++_tags": ["wall", "dry", "grassy", "hill", "stone", "sun", "sunset"], "ram++_tags_score": [9.56411075592041, 2.3733813762664795, 1.4329272508621216, 1.9840935468673706, 1.9766467809677124, 2.255882501602173, 2.575751781463623], "phash": [12512305226191801180], "qw2vl_loss": 3.0559005737304688 }
数据字段解释
- id: 记录的ID。
- source: 记录的来源。
- conversations: 记录的对话内容。
- image: 图像的绝对路径。
- ram++_tags & ram++_tags_score: 由 Ram++ 模型生成的图像标签及其分数。
- phash: 图像的phash值。
- qw2vl_loss: 由 Qwen2-VL-2B 模型计算的值。
数据来源
| 数据来源 | 数据量 |
|---|---|
| Emu2 | 10M |
| LVIS-Instruct | 223K |
| LLaVA-CC3M-Pretrain-595K | 595K |
| Visdial | 116K |
| Sharegpt4 | 3.2M |
| STVQA | 43K |
| MMC-INST | 500K |
| MathV360K | 338K |
| MMC-Alignment | 250K |
| DocReason | 26K |
| ALLaVA | 1.7M |
| Cocotext | 163K |
| Docvqa | 16K |
| Geoqa+ | 72K |
| DocDownstream | 700K |
| Cambrian | 8.3M |
| DocStruct4M | 4M |
| LLaVA-onevision | 4M |
| Docmatix | 1.2M |
| Infinity-Instruct | 7M |
| 合成数据 | 0.8M |
引用
如果该数据集对您的研究有帮助,请引用以下工作:
@misc{gu2024infinitymmscalingmultimodalperformance, title={Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data}, author={Shuhao Gu and Jialing Zhang and Siyuan Zhou and Kevin Yu and Zhaohu Xing and Liangdong Wang and Zhou Cao and Jintao Jia and Zhuoyi Zhang and Yixuan Wang and Zhenchong Hu and Bo-Wen Zhang and Jijie Li and Dong Liang and Yingli Zhao and Yulong Ao and Yaoqi Liu and Fangxiang Feng and Guang Liu}, year={2024}, eprint={2410.18558}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.18558}, }

The Sol Genomics Network (SGN)
The Sol Genomics Network (SGN) 是一个专注于茄科植物基因组学研究的在线数据库和资源平台。该数据集包含了大量关于番茄、马铃薯、辣椒等茄科植物的基因组、遗传图谱、分子标记、QTL(数量性状位点)分析、表达数据以及相关文献等信息。SGN 旨在促进茄科植物的遗传学和基因组学研究,支持全球科研人员进行数据共享和合作。
solgenomics.net 收录
中国区域250米植被覆盖度数据集(2000-2024)
该数据集是中国区域2000至2024年月度植被覆盖度产品,空间分辨率250米,合成方式采用月最大值合成,每年12期,共299期。本产品采用基于归一化植被指数(NDVI)像元二分模型,根据土地利用类型确定纯植被像元值和纯裸土像元值,实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中,NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集(2000-2024)产品。通过时空变化趋势分析检验法分析,该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。
国家青藏高原科学数据中心 收录
Asian Lepidoptera Biodiversity
该数据集包含了亚洲地区蝴蝶和蛾类的多样性信息,包括物种分类、分布区域、生态特征等。
www.gbif.org 收录
Psychrobacter namhaensis Yoon et al. 2005
The range of data encompasses taxonomy, morphology, physiology, sampling and concomitant environmental conditions as well as molecular biology.
DataCite Commons 收录
PartNet
我们介绍了PartNet: 一个一致的、大规模的三维对象数据集,用细粒度的、实例级的和分层的三维零件信息进行注释。我们的数据集包括573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集支持并充当许多任务的催化剂,例如形状分析,动态3D场景建模和仿真,可承受分析等。使用我们的数据集,我们建立了用于评估3D零件识别的三个基准任务: 细粒度语义分割,分层语义分割和实例分割。我们对四种最先进的3D深度学习算法进行了基准测试,用于细粒度语义分割,并对三种基线方法进行了基准测试。我们还提出了一种新颖的零件实例分割方法,并证明了其优于现有方法的性能。
OpenDataLab 收录
