Infinity-MM|多模态数据数据集|模型训练数据集
收藏Infinity-MM 数据集概述
数据集简介
Infinity-MM 是一个大规模的多模态指令数据集,包含数千万个样本。通过质量过滤和去重,数据集具有高质量和多样性。数据集通过开源模型和标注系统生成合成数据,使用详细的图像标注和多样的问题生成。
数据集更新
- 2024/10/24: Stage 2、Stage 3 和 Stage 4 的数据已转移,Stage 1 的数据将于 2024/11/1 完成传输。
数据集分类
数据阶段 | 数据类别 | 数据量 | 数据组成 |
---|---|---|---|
Stage 1 | 图像-标题数据 | 10M | 标题数据 10M |
Stage 2 | 通用视觉指令数据 | 24.4M | 通用数据 7.1M, 通用OCR数据 2.6M, 文档/图表/屏幕数据 5.8M, 数学/推理数据 1.3M, 文本指令数据 7.6M |
Stage 3 | 选择性视觉指令数据 | 6M | LLaVA-onevision 数据 3.5M, Infinity-Instruct 1.3M, Docmatix 数据 1.2M |
Stage 4 | GPT4 & 合成数据 | 3M | GPT4 生成数据 1.7M, 合成数据 0.8M, 特定任务数据 0.4M, Infinity-Preference 数据 0.1M |
数据格式示例
json { "id": "10", "source": "llava", "conversations": [ { "from": "human", "value": "<image> Can you create a descriptive poem about the scene?" }, { "from": "gpt", "value": "Upon a plate of verdant hue, A cluster of roasted nuts we view. Cashews golden, shining bright, Almonds dark, a roasted delight. Sprinkled seeds of sesame light, Enhancing flavors, a gentle bite. On white wood they rest in grace, A rustic charm, a peaceful place. Simple joys in a vibrant array, A perfect treat to start the day." } ], "image": "/path/of/the/image", "ram++_tags": ["wall", "dry", "grassy", "hill", "stone", "sun", "sunset"], "ram++_tags_score": [9.56411075592041, 2.3733813762664795, 1.4329272508621216, 1.9840935468673706, 1.9766467809677124, 2.255882501602173, 2.575751781463623], "phash": [12512305226191801180], "qw2vl_loss": 3.0559005737304688 }
数据字段解释
- id: 记录的ID。
- source: 记录的来源。
- conversations: 记录的对话内容。
- image: 图像的绝对路径。
- ram++_tags & ram++_tags_score: 由 Ram++ 模型生成的图像标签及其分数。
- phash: 图像的phash值。
- qw2vl_loss: 由 Qwen2-VL-2B 模型计算的值。
数据来源
数据来源 | 数据量 |
---|---|
Emu2 | 10M |
LVIS-Instruct | 223K |
LLaVA-CC3M-Pretrain-595K | 595K |
Visdial | 116K |
Sharegpt4 | 3.2M |
STVQA | 43K |
MMC-INST | 500K |
MathV360K | 338K |
MMC-Alignment | 250K |
DocReason | 26K |
ALLaVA | 1.7M |
Cocotext | 163K |
Docvqa | 16K |
Geoqa+ | 72K |
DocDownstream | 700K |
Cambrian | 8.3M |
DocStruct4M | 4M |
LLaVA-onevision | 4M |
Docmatix | 1.2M |
Infinity-Instruct | 7M |
合成数据 | 0.8M |
引用
如果该数据集对您的研究有帮助,请引用以下工作:
@misc{gu2024infinitymmscalingmultimodalperformance, title={Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data}, author={Shuhao Gu and Jialing Zhang and Siyuan Zhou and Kevin Yu and Zhaohu Xing and Liangdong Wang and Zhou Cao and Jintao Jia and Zhuoyi Zhang and Yixuan Wang and Zhenchong Hu and Bo-Wen Zhang and Jijie Li and Dong Liang and Yingli Zhao and Yulong Ao and Yaoqi Liu and Fangxiang Feng and Guang Liu}, year={2024}, eprint={2410.18558}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.18558}, }

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
CAP-DATA
CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。
arXiv 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录