Awesome Multimodal Datasets

github2025-08-18 更新2025-08-22 收录

下载链接：

https://github.com/KaikoGit/Awesome-Multimodal-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个精选的高质量多模态数据集列表，涵盖图像、视频、3D、文本、音频、传感器等多种模态。

A curated high-quality list of multimodal datasets covering diverse modalities such as images, videos, 3D data, text, audio, and sensor data.

创建时间：

2025-08-09

原始信息汇总

多模态数据集资源概述

简介

该资源库是一个精心整理的高质量多模态数据集集合，涵盖图像、视频、3D、文本、音频、传感器等多种模态。旨在为研究人员、教育工作者、初学者和实践者提供一站式多模态AI数据集资源。

数据集分类

1. 训练专用数据集

1.1 图像-文本

MINT-1T：包含34亿图像和1T文本标记，2024年发布，包含PDF和ArXiv论文。
BiomedCLIP：包含1500万生物医学图像-文本对，2023年发布，用于生物医学视觉语言任务。
Bloom Library：包含160万页多语言故事书文本，支持低资源语言。
LAION-5B：包含58.5亿对图像-文本，2022年发布，包含替代文本和CLIP相似度分数。
COYO-700M：包含7.47亿对图像-文本，2022年发布，来自Common-Crawl网络数据。
Microsoft COCO：包含33万图像，2014年发布，支持检测和分割任务。
Flickr30k：包含3.1万图像，2014年发布，每张图像5个人工标注描述。

1.2 视频-文本

Video-MME：包含短、中、长视频，2025年发布，用于多模态LLM视频分析评估。
Panda-70M：包含7000万视频片段，2024年发布，跨模态蒸馏描述。
OpenVid-1M：包含100万视频片段，2024年发布，支持文本到视频生成。
WebVid-10M：包含1000万视频片段，2021年发布，网络来源片段。
YouTube-8M：包含800万视频，2016年发布，4716个类别标签。

1.3 音频-文本

WavCaps：包含40万音频片段/7600小时，2023年发布，ChatGPT过滤描述。
AudioCaps：包含4.6万音频片段，2019年发布，人工标注描述。
Clotho：包含4900音频片段，2020年发布，DCASE音频描述基准。
LibriTTS：包含585小时音频，2019年发布，支持TTS和ASR基准。
AISHELL-2：包含1000小时音频，2018年发布，中文ASR数据集。
LJSpeech：包含13100音频片段/24小时，2017年发布，单说话人TTS基准。

1.4 音频-视频-文本

InternVid：包含2.34亿视频片段，2023年发布，LLM生成描述。
VGGSound：包含20万视频片段/550小时，2020年发布，音频-视觉对应数据。

1.5 3D-文本/多传感器

RSICap：包含10.4万图像，2024年发布，场景和对象描述。
SoundingEarth：包含5万图像-音频对，2023年发布，众包音频标签。
ShapeNet：包含5.1万3D模型，2015年发布，支持3D分类和分割。

1.6 指令调优

LLaVA-Instruct-150K：包含15万指令对，2023年发布，GPT-4生成指令。
InstructBLIP：包含160万指令对，2023年发布，覆盖11个任务。
MIMIC-IT：包含280万指令对，2023年发布，支持8种语言。
LAMM：包含18.6万图像对和1万点云对，2023年发布，支持2D和3D视觉任务。

2. 任务专用数据集

2.1 视觉问答（VQA）

SlideVQA：包含1.45万QA对，2024年发布，需要复杂推理。
TVQA：包含15.25万QA对，2018年发布，电视节目片段。
SQA3D：包含3.34万问题，2023年发布，空间推理和常识问答。
MovieQA：包含1.4944万QA对，2016年发布，电影故事理解。

2.2 图像和视频描述

MSR-VTT：包含1万视频片段/20万描述，2016年发布，每段视频20个人工描述。

2.3 文本-视频检索

WebVid-10M：包含1000万视频片段，2021年发布，广泛用于文本-视频检索基准。

2.4 情感和行为识别

MAGB：包含1433个多说话人场景，2019年发布，7种情感标签。
MELD：包含13708个话语，2019年发布，多说话人情感识别。
MuSe-CaR：包含40小时57分钟视频，2020年发布，连续情感和信任标签。
IEMOCAP：包含12小时对话，2008年发布，10种情感标签。
SEMAINE：包含959个对话，2011年发布，连续情感维度标签。
Belfast Emotional：包含750个视频片段，2012年发布，情感强度评分。
MMAD：包含6528个视频，2024年发布，52个微动作类别。
SAMSEMO：包含2.3万视频场景，2024年发布，多语言情感识别。
ViMACSA：包含4876个文本-图像对，2024年发布，越南语情感分析。

2.5 摘要和检索

MAGB：包含5个图/130万节点，2024年发布，多模态属性图基准。
MMSum：包含5100个视频，2023年发布，多模态摘要数据集。

2.6 动作识别和定位

DurLAR：包含10万帧，2024年发布，高分辨率LiDAR数据。
CATER：包含5.5千个视频片段，2020年发布，合成桌面视频。
HowTo100M：包含1.36亿视频片段，2019年发布，真实世界教学视频。

3. 领域专用数据集

3.1 医疗和健康

Medical：包含4000参与者数据，2025年发布，糖尿病眼研究数据。
MIMIC-CXR：包含37.7万胸部X光图像，2019年发布，14个标准化标签。
PathGen-1.6M：包含83万+全切片图像，2024年发布，病理诊断支持。

3.2 自动驾驶和机器人

nuScenes：包含1000个场景，2019年发布，城市驾驶数据。
KITTI：包含6小时数据，2012年发布，3D目标检测基准。
WayMoCo：包含2.6万序列，2025年发布，SMPL运动参数。
BASEPROD：包含2.4千合成帧，2024年发布，多模态机器人感知基准。

搜集汇总

数据集介绍

构建方式

该数据集采用系统性聚合与分类方法构建，通过筛选高质量多模态数据源并依据模态组合、任务类型及领域特性进行层级化组织。构建过程涵盖数据采集、清洗、标注验证与标准化处理，确保数据的一致性与可用性。所有条目均经过人工审核与自动化质量检测，形成结构化的多模态资源集合。

使用方法

用户可通过分类导航快速定位目标数据集，按模态、任务或领域筛选所需资源。每个条目提供元数据描述、规模、年份、许可协议及原始链接，支持直接下载或通过API访问。数据集适用于模型训练、评估、研究分析及跨模态任务开发，需遵循相应许可协议规范使用。

背景与挑战

背景概述

多模态数据集作为人工智能领域的重要基础设施，由KaecoHappy等研究团队于近年构建并持续维护。该资源库系统整合了图像-文本、视频-音频、3D-传感器等跨模态数据，旨在解决多模态智能系统在视觉、语言、语音等模态融合中的基础性问题。其覆盖范围从2012年的KITTI自动驾驶数据集到2024年发布的MINT-1T万亿级图文对，不仅推动了CLIP、Stable Diffusion等突破性模型的诞生，更为教育、科研及产业应用提供了标准化基准，显著加速了多模态预训练与指令微调技术的发展进程。

当前挑战

多模态数据集面临的核心挑战在于模态对齐的复杂性，不同模态数据存在时空分辨率差异与语义鸿沟，例如视频-文本数据需解决时序动作与语言描述的精确映射。构建过程中需克服大规模数据清洗的难题，如LAION-5B需通过CLIP相似度过滤低质量样本，而医疗领域数据还需满足严格的隐私合规要求。此外，多模态指令微调数据需保证指令-响应对的逻辑一致性，这要求采用GPT-4等大模型进行精细化标注，显著增加了构建成本与技术门槛。

常用场景

解决学术问题

该数据集有效解决了多模态融合中的语义鸿沟问题，为跨模态表示学习、模态间对齐和联合嵌入空间构建提供了标准化实验基础。通过大规模高质量标注数据，支持了对视觉问答、跨模态检索、多模态情感分析等核心学术问题的深入研究，显著提升了模型在复杂真实场景中的泛化能力和可解释性。其系统化的分类体系亦促进了多模态学习理论框架的完善与发展。

实际应用

在工业实践层面，该数据集支撑了智能医疗诊断系统的开发，通过融合医学影像与临床文本实现辅助诊断；赋能自动驾驶系统进行多传感器数据融合感知；助力教育科技领域构建跨模态教学内容理解平台。其涵盖的工业检测、机器人导航等垂直领域数据，为实际应用场景提供了可靠的训练基准和性能验证标准。

数据集最近研究