Awesome Multimodal Datasets

github2025-08-09 更新2025-08-11 收录

下载链接：

https://github.com/KaecoHappy/Awesome-Multimodal-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个为AI研究精选的高质量多模态数据集列表，涵盖图像、视频、3D、文本、音频、传感器等多种模态。

A curated list of high-quality multimodal datasets for AI research, encompassing various modalities such as images, videos, 3D, text, audio, and sensors.

创建时间：

2025-08-09

原始信息汇总

Awesome Multimodal Datasets 数据集概述

1. 训练专用数据集

1.1 图像-文本

MINT-1T: 34亿图像，1万亿token（2024年）
BiomedCLIP: 1500万生物医学图像-文本对（2023年）
LAION-5B: 58.5亿对（2022年，CC-BY 4.0）
COYO-700M: 7.47亿对（2022年）
Microsoft COCO: 33万图像（2014年，CC-BY 4.0）

1.2 视频-文本

Panda-70M: 7000万片段（2024年）
WebVid-10M: 1000万片段（2021年，CC-BY 4.0）
YouTube-8M: 800万视频（2016年，CC-BY 4.0）

1.3 音频-文本

WavCaps: 40万片段/7600小时（2023年，CC-BY 4.0）
AudioCaps: 4.6万片段（2019年，CC-BY-NC 4.0）

1.4 音频-视频-文本

InternVid: 2.34亿片段（2023年）
VGGSound: 20万片段/550小时（2020年，CC-BY-4.0）

1.5 3D-文本/多传感器

ShapeNet: 5.1万模型（2015年，CC-BY 4.0）

1.6 指令调优

LLaVA-Instruct-150K: 15万指令对（2023年，CC-BY-4.0）
InstructBLIP: 160万对（2023年，CC-BY 4.0）

2. 任务专用数据集

2.1 视觉问答(VQA)

SlideVQA: 1.45万QA对（2024年，CC-BY 4.0）
TVQA: 15.25万QA对（2018年，CC-BY 4.0）

2.2 图像视频字幕

MSR-VTT: 1万片段/20万字幕（2016年，CC-BY 4.0）

2.3 文本-视频检索

WebVid-10M: 1000万片段（2021年，CC-BY 4.0）

2.4 情感行为识别

MELD: 1.37万语句（2019年，CC-BY 4.0）
IEMOCAP: 12小时/151对话（2008年，CC-BY 4.0）

2.5 摘要检索

MMSum: 5100视频/1229.9小时（2023年，CC BY-NC-SA 4.0）

2.6 动作识别定位

HowTo100M: 1.36亿片段（2019年）

3. 领域专用数据集

3.1 医疗健康

MIMIC-CXR: 37.7万X光图像（2019年）

3.2 自动驾驶机器人

nuScenes: 1000场景（2019年，CC BY-SA 4.0）
KITTI: 6小时数据（2012年，CC BY-NC-SA 3.0）

3.3 地理空间遥感

SpaceNet: 68.5万+建筑足迹

搜集汇总

数据集介绍

构建方式

Awesome Multimodal Datasets是一个经过精心筛选的高质量多模态数据集集合，涵盖了图像、视频、3D、文本、音频、传感器等多种模态。该数据集的构建基于社区协作模式，通过GitHub平台持续更新和维护，接受来自全球研究者的贡献。数据集的组织采用层级分类法，按照训练用途、任务类型和领域特性三个维度进行系统化归类，每个子类别的数据集都经过人工审核确保质量。数据来源包括学术机构发布的基准数据集、企业开放的研究数据以及社区贡献的经过清洗的网络数据，所有条目均标注了原始发布年份、数据规模、许可协议等元信息。

特点

该数据集的核心特点在于其多模态覆盖的广度和深度，不仅包含常见的图像-文本配对数据，还涵盖了视频-音频-文本三元组、3D模型-描述等复杂模态组合。数据集规模跨度极大，既有千万级的海量预训练数据如LAION-5B，也有精细标注的小规模基准测试集如COCO Captions。时间维度上收录了从2012年经典基准到2025年最新发布的前沿数据集，形成完整的技术演进脉络。特别值得注意的是其对垂直领域的覆盖，包含医疗影像、自动驾驶、地理空间等专业场景的数据，且每个条目都明确标注许可协议，为研究者的合规使用提供保障。

使用方法

使用者可通过GitHub仓库的层级目录快速定位目标数据集，README文件中的Markdown表格提供了每个数据集的模态组合、规模、年份、标注类型等关键信息。对于预训练任务，可直接参考Training-Specific分类下的图像-文本、视频-文本等子类；特定任务研究则可在Task-Specific部分找到VQA、视频摘要等专用基准。领域研究者可查阅Domain-Specific分类获取专业数据。每个数据集条目均附带原始论文链接或项目地址，建议使用者遵循标注的许可协议要求，对于商用场景需特别注意CC-BY-NC等限制性许可。社区鼓励研究者通过PR机制贡献新的高质量数据集资源。

背景与挑战

背景概述

Awesome Multimodal Datasets是由AI研究社区于2020年代初期发起并持续维护的跨模态数据集索引项目，旨在为多模态机器学习研究提供系统化的高质量数据资源。该项目汇集了来自全球顶尖研究机构（如Google Research、LAION、微软研究院等）发布的百余个数据集，覆盖图像-文本、视频-音频、3D点云-语义等12种模态组合。其核心研究问题聚焦于解决多模态表征学习中的异构数据对齐难题，通过结构化整理不同领域（医疗、自动驾驶、地理空间等）的标注标准与评估指标，显著降低了跨模态研究的入门门槛。该资源已被引用于CLIP、Stable Diffusion等里程碑式模型的开发过程，成为多模态预训练领域的事实标准基础设施之一。

当前挑战

该数据集集合面临的核心挑战主要体现在两方面：在领域问题层面，多模态数据固有的异构性导致跨模态对齐困难，例如视频-文本数据中时序信息与语言描述的精确匹配问题，以及3D点云数据与自然语言之间的几何语义鸿沟；在构建过程层面，数据质量控制存在显著挑战，包括网络爬取数据的噪声过滤（如LAION-5B中的NSFW内容识别）、多语言标注的一致性维护（如Bloom Library涵盖的87种低资源语言），以及医疗等敏感领域数据的合规去标识化处理（如MIMIC-CXR的HIPAA合规要求）。此外，动态更新的特性要求持续跟踪新兴模态（如2024年新增的LiDAR-文本组合）与评估基准的演进。

常用场景

经典使用场景

在跨模态人工智能研究中，Awesome Multimodal Datasets作为综合性资源库，其经典应用场景集中在多模态预训练模型的开发与评估。该数据集通过整合图像-文本、视频-音频-文本等异构数据，为视觉语言模型（如CLIP、BLIP）和视频理解模型（如VideoBERT）提供了标准化的训练基准。尤其在视觉问答（VQA）任务中，其包含的SlideVQA和TVQA等子集通过医学幻灯片解析与影视情节理解等复杂场景，推动了模型在细粒度跨模态推理能力上的突破。

衍生相关工作

基于该数据集衍生的经典工作包括多模态大模型LLaVA、InstructBLIP等突破性成果。LLaVA-Instruct-150K直接催生了视觉指令微调技术范式，而BiomedCLIP子集支撑了首个生物医学视觉语言预训练模型。在视频理解领域，InternVid的7.6万小时视频数据赋能Video-LLaMA等视频大模型开发，其LLM生成标注方法更成为行业新标准。3D-Text方向的ShapeNet则衍生出PointBERT等点云预训练框架，推动三维视觉的快速发展。

数据集最近研究