Awesome Multimodal Datasets
收藏github2025-08-09 更新2025-08-11 收录
下载链接:
https://github.com/KaecoHappy/Awesome-Multimodal-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个为AI研究精选的高质量多模态数据集列表,涵盖图像、视频、3D、文本、音频、传感器等多种模态。
A curated list of high-quality multimodal datasets for AI research, encompassing various modalities such as images, videos, 3D, text, audio, and sensors.
创建时间:
2025-08-09
原始信息汇总
Awesome Multimodal Datasets 数据集概述
1. 训练专用数据集
1.1 图像-文本
- MINT-1T: 34亿图像,1万亿token(2024年)
- BiomedCLIP: 1500万生物医学图像-文本对(2023年)
- LAION-5B: 58.5亿对(2022年,CC-BY 4.0)
- COYO-700M: 7.47亿对(2022年)
- Microsoft COCO: 33万图像(2014年,CC-BY 4.0)
1.2 视频-文本
- Panda-70M: 7000万片段(2024年)
- WebVid-10M: 1000万片段(2021年,CC-BY 4.0)
- YouTube-8M: 800万视频(2016年,CC-BY 4.0)
1.3 音频-文本
- WavCaps: 40万片段/7600小时(2023年,CC-BY 4.0)
- AudioCaps: 4.6万片段(2019年,CC-BY-NC 4.0)
1.4 音频-视频-文本
- InternVid: 2.34亿片段(2023年)
- VGGSound: 20万片段/550小时(2020年,CC-BY-4.0)
1.5 3D-文本/多传感器
- ShapeNet: 5.1万模型(2015年,CC-BY 4.0)
1.6 指令调优
- LLaVA-Instruct-150K: 15万指令对(2023年,CC-BY-4.0)
- InstructBLIP: 160万对(2023年,CC-BY 4.0)
2. 任务专用数据集
2.1 视觉问答(VQA)
- SlideVQA: 1.45万QA对(2024年,CC-BY 4.0)
- TVQA: 15.25万QA对(2018年,CC-BY 4.0)
2.2 图像视频字幕
- MSR-VTT: 1万片段/20万字幕(2016年,CC-BY 4.0)
2.3 文本-视频检索
- WebVid-10M: 1000万片段(2021年,CC-BY 4.0)
2.4 情感行为识别
- MELD: 1.37万语句(2019年,CC-BY 4.0)
- IEMOCAP: 12小时/151对话(2008年,CC-BY 4.0)
2.5 摘要检索
- MMSum: 5100视频/1229.9小时(2023年,CC BY-NC-SA 4.0)
2.6 动作识别定位
- HowTo100M: 1.36亿片段(2019年)
3. 领域专用数据集
3.1 医疗健康
- MIMIC-CXR: 37.7万X光图像(2019年)
3.2 自动驾驶机器人
- nuScenes: 1000场景(2019年,CC BY-SA 4.0)
- KITTI: 6小时数据(2012年,CC BY-NC-SA 3.0)
3.3 地理空间遥感
- SpaceNet: 68.5万+建筑足迹
搜集汇总
数据集介绍

构建方式
Awesome Multimodal Datasets是一个经过精心筛选的高质量多模态数据集集合,涵盖了图像、视频、3D、文本、音频、传感器等多种模态。该数据集的构建基于社区协作模式,通过GitHub平台持续更新和维护,接受来自全球研究者的贡献。数据集的组织采用层级分类法,按照训练用途、任务类型和领域特性三个维度进行系统化归类,每个子类别的数据集都经过人工审核确保质量。数据来源包括学术机构发布的基准数据集、企业开放的研究数据以及社区贡献的经过清洗的网络数据,所有条目均标注了原始发布年份、数据规模、许可协议等元信息。
特点
该数据集的核心特点在于其多模态覆盖的广度和深度,不仅包含常见的图像-文本配对数据,还涵盖了视频-音频-文本三元组、3D模型-描述等复杂模态组合。数据集规模跨度极大,既有千万级的海量预训练数据如LAION-5B,也有精细标注的小规模基准测试集如COCO Captions。时间维度上收录了从2012年经典基准到2025年最新发布的前沿数据集,形成完整的技术演进脉络。特别值得注意的是其对垂直领域的覆盖,包含医疗影像、自动驾驶、地理空间等专业场景的数据,且每个条目都明确标注许可协议,为研究者的合规使用提供保障。
使用方法
使用者可通过GitHub仓库的层级目录快速定位目标数据集,README文件中的Markdown表格提供了每个数据集的模态组合、规模、年份、标注类型等关键信息。对于预训练任务,可直接参考Training-Specific分类下的图像-文本、视频-文本等子类;特定任务研究则可在Task-Specific部分找到VQA、视频摘要等专用基准。领域研究者可查阅Domain-Specific分类获取专业数据。每个数据集条目均附带原始论文链接或项目地址,建议使用者遵循标注的许可协议要求,对于商用场景需特别注意CC-BY-NC等限制性许可。社区鼓励研究者通过PR机制贡献新的高质量数据集资源。
背景与挑战
背景概述
Awesome Multimodal Datasets是由AI研究社区于2020年代初期发起并持续维护的跨模态数据集索引项目,旨在为多模态机器学习研究提供系统化的高质量数据资源。该项目汇集了来自全球顶尖研究机构(如Google Research、LAION、微软研究院等)发布的百余个数据集,覆盖图像-文本、视频-音频、3D点云-语义等12种模态组合。其核心研究问题聚焦于解决多模态表征学习中的异构数据对齐难题,通过结构化整理不同领域(医疗、自动驾驶、地理空间等)的标注标准与评估指标,显著降低了跨模态研究的入门门槛。该资源已被引用于CLIP、Stable Diffusion等里程碑式模型的开发过程,成为多模态预训练领域的事实标准基础设施之一。
当前挑战
该数据集集合面临的核心挑战主要体现在两方面:在领域问题层面,多模态数据固有的异构性导致跨模态对齐困难,例如视频-文本数据中时序信息与语言描述的精确匹配问题,以及3D点云数据与自然语言之间的几何语义鸿沟;在构建过程层面,数据质量控制存在显著挑战,包括网络爬取数据的噪声过滤(如LAION-5B中的NSFW内容识别)、多语言标注的一致性维护(如Bloom Library涵盖的87种低资源语言),以及医疗等敏感领域数据的合规去标识化处理(如MIMIC-CXR的HIPAA合规要求)。此外,动态更新的特性要求持续跟踪新兴模态(如2024年新增的LiDAR-文本组合)与评估基准的演进。
常用场景
经典使用场景
在跨模态人工智能研究中,Awesome Multimodal Datasets作为综合性资源库,其经典应用场景集中在多模态预训练模型的开发与评估。该数据集通过整合图像-文本、视频-音频-文本等异构数据,为视觉语言模型(如CLIP、BLIP)和视频理解模型(如VideoBERT)提供了标准化的训练基准。尤其在视觉问答(VQA)任务中,其包含的SlideVQA和TVQA等子集通过医学幻灯片解析与影视情节理解等复杂场景,推动了模型在细粒度跨模态推理能力上的突破。
衍生相关工作
基于该数据集衍生的经典工作包括多模态大模型LLaVA、InstructBLIP等突破性成果。LLaVA-Instruct-150K直接催生了视觉指令微调技术范式,而BiomedCLIP子集支撑了首个生物医学视觉语言预训练模型。在视频理解领域,InternVid的7.6万小时视频数据赋能Video-LLaMA等视频大模型开发,其LLM生成标注方法更成为行业新标准。3D-Text方向的ShapeNet则衍生出PointBERT等点云预训练框架,推动三维视觉的快速发展。
数据集最近研究
最新研究方向
近年来,多模态数据集在人工智能研究领域展现出前所未有的活力,特别是在跨模态预训练和指令微调方向。以Awesome Multimodal Datasets为代表的数据集库,整合了图像、视频、音频、文本及传感器数据等多种模态,为多模态大模型(如GPT-4、CLIP等)的训练与评估提供了丰富资源。前沿研究聚焦于多模态指令微调(如LLaVA-Instruct-150K、InstructBLIP)、视频-语言联合建模(如Panda-70M、InternVid)以及医疗(MIMIC-CXR)、自动驾驶(nuScenes)等垂直领域的精细化标注。2024年新发布的MINT-1T(1万亿文本标记)和Video-MME(长视频分析基准)等数据集,进一步推动了多模态模型在复杂推理、时空理解和跨模态对齐方面的突破。这些进展不仅加速了通用多模态智能体的发展,也为情感计算、机器人感知等新兴方向提供了标准化评估框架。
以上内容由遇见数据集搜集并总结生成



