Awesome Multimodal Datasets
收藏github2025-08-18 更新2025-08-22 收录
下载链接:
https://github.com/KaikoGit/Awesome-Multimodal-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个精选的高质量多模态数据集列表,涵盖图像、视频、3D、文本、音频、传感器等多种模态。
A curated high-quality list of multimodal datasets covering diverse modalities such as images, videos, 3D data, text, audio, and sensor data.
创建时间:
2025-08-09
原始信息汇总
多模态数据集资源概述
简介
该资源库是一个精心整理的高质量多模态数据集集合,涵盖图像、视频、3D、文本、音频、传感器等多种模态。旨在为研究人员、教育工作者、初学者和实践者提供一站式多模态AI数据集资源。
数据集分类
1. 训练专用数据集
1.1 图像-文本
- MINT-1T:包含34亿图像和1T文本标记,2024年发布,包含PDF和ArXiv论文。
- BiomedCLIP:包含1500万生物医学图像-文本对,2023年发布,用于生物医学视觉语言任务。
- Bloom Library:包含160万页多语言故事书文本,支持低资源语言。
- LAION-5B:包含58.5亿对图像-文本,2022年发布,包含替代文本和CLIP相似度分数。
- COYO-700M:包含7.47亿对图像-文本,2022年发布,来自Common-Crawl网络数据。
- Microsoft COCO:包含33万图像,2014年发布,支持检测和分割任务。
- Flickr30k:包含3.1万图像,2014年发布,每张图像5个人工标注描述。
1.2 视频-文本
- Video-MME:包含短、中、长视频,2025年发布,用于多模态LLM视频分析评估。
- Panda-70M:包含7000万视频片段,2024年发布,跨模态蒸馏描述。
- OpenVid-1M:包含100万视频片段,2024年发布,支持文本到视频生成。
- WebVid-10M:包含1000万视频片段,2021年发布,网络来源片段。
- YouTube-8M:包含800万视频,2016年发布,4716个类别标签。
1.3 音频-文本
- WavCaps:包含40万音频片段/7600小时,2023年发布,ChatGPT过滤描述。
- AudioCaps:包含4.6万音频片段,2019年发布,人工标注描述。
- Clotho:包含4900音频片段,2020年发布,DCASE音频描述基准。
- LibriTTS:包含585小时音频,2019年发布,支持TTS和ASR基准。
- AISHELL-2:包含1000小时音频,2018年发布,中文ASR数据集。
- LJSpeech:包含13100音频片段/24小时,2017年发布,单说话人TTS基准。
1.4 音频-视频-文本
- InternVid:包含2.34亿视频片段,2023年发布,LLM生成描述。
- VGGSound:包含20万视频片段/550小时,2020年发布,音频-视觉对应数据。
1.5 3D-文本/多传感器
- RSICap:包含10.4万图像,2024年发布,场景和对象描述。
- SoundingEarth:包含5万图像-音频对,2023年发布,众包音频标签。
- ShapeNet:包含5.1万3D模型,2015年发布,支持3D分类和分割。
1.6 指令调优
- LLaVA-Instruct-150K:包含15万指令对,2023年发布,GPT-4生成指令。
- InstructBLIP:包含160万指令对,2023年发布,覆盖11个任务。
- MIMIC-IT:包含280万指令对,2023年发布,支持8种语言。
- LAMM:包含18.6万图像对和1万点云对,2023年发布,支持2D和3D视觉任务。
2. 任务专用数据集
2.1 视觉问答(VQA)
- SlideVQA:包含1.45万QA对,2024年发布,需要复杂推理。
- TVQA:包含15.25万QA对,2018年发布,电视节目片段。
- SQA3D:包含3.34万问题,2023年发布,空间推理和常识问答。
- MovieQA:包含1.4944万QA对,2016年发布,电影故事理解。
2.2 图像和视频描述
- MSR-VTT:包含1万视频片段/20万描述,2016年发布,每段视频20个人工描述。
2.3 文本-视频检索
- WebVid-10M:包含1000万视频片段,2021年发布,广泛用于文本-视频检索基准。
2.4 情感和行为识别
- MAGB:包含1433个多说话人场景,2019年发布,7种情感标签。
- MELD:包含13708个话语,2019年发布,多说话人情感识别。
- MuSe-CaR:包含40小时57分钟视频,2020年发布,连续情感和信任标签。
- IEMOCAP:包含12小时对话,2008年发布,10种情感标签。
- SEMAINE:包含959个对话,2011年发布,连续情感维度标签。
- Belfast Emotional:包含750个视频片段,2012年发布,情感强度评分。
- MMAD:包含6528个视频,2024年发布,52个微动作类别。
- SAMSEMO:包含2.3万视频场景,2024年发布,多语言情感识别。
- ViMACSA:包含4876个文本-图像对,2024年发布,越南语情感分析。
2.5 摘要和检索
- MAGB:包含5个图/130万节点,2024年发布,多模态属性图基准。
- MMSum:包含5100个视频,2023年发布,多模态摘要数据集。
2.6 动作识别和定位
- DurLAR:包含10万帧,2024年发布,高分辨率LiDAR数据。
- CATER:包含5.5千个视频片段,2020年发布,合成桌面视频。
- HowTo100M:包含1.36亿视频片段,2019年发布,真实世界教学视频。
3. 领域专用数据集
3.1 医疗和健康
- Medical:包含4000参与者数据,2025年发布,糖尿病眼研究数据。
- MIMIC-CXR:包含37.7万胸部X光图像,2019年发布,14个标准化标签。
- PathGen-1.6M:包含83万+全切片图像,2024年发布,病理诊断支持。
3.2 自动驾驶和机器人
- nuScenes:包含1000个场景,2019年发布,城市驾驶数据。
- KITTI:包含6小时数据,2012年发布,3D目标检测基准。
- WayMoCo:包含2.6万序列,2025年发布,SMPL运动参数。
- BASEPROD:包含2.4千合成帧,2024年发布,多模态机器人感知基准。
搜集汇总
数据集介绍

构建方式
该数据集采用系统性聚合与分类方法构建,通过筛选高质量多模态数据源并依据模态组合、任务类型及领域特性进行层级化组织。构建过程涵盖数据采集、清洗、标注验证与标准化处理,确保数据的一致性与可用性。所有条目均经过人工审核与自动化质量检测,形成结构化的多模态资源集合。
使用方法
用户可通过分类导航快速定位目标数据集,按模态、任务或领域筛选所需资源。每个条目提供元数据描述、规模、年份、许可协议及原始链接,支持直接下载或通过API访问。数据集适用于模型训练、评估、研究分析及跨模态任务开发,需遵循相应许可协议规范使用。
背景与挑战
背景概述
多模态数据集作为人工智能领域的重要基础设施,由KaecoHappy等研究团队于近年构建并持续维护。该资源库系统整合了图像-文本、视频-音频、3D-传感器等跨模态数据,旨在解决多模态智能系统在视觉、语言、语音等模态融合中的基础性问题。其覆盖范围从2012年的KITTI自动驾驶数据集到2024年发布的MINT-1T万亿级图文对,不仅推动了CLIP、Stable Diffusion等突破性模型的诞生,更为教育、科研及产业应用提供了标准化基准,显著加速了多模态预训练与指令微调技术的发展进程。
当前挑战
多模态数据集面临的核心挑战在于模态对齐的复杂性,不同模态数据存在时空分辨率差异与语义鸿沟,例如视频-文本数据需解决时序动作与语言描述的精确映射。构建过程中需克服大规模数据清洗的难题,如LAION-5B需通过CLIP相似度过滤低质量样本,而医疗领域数据还需满足严格的隐私合规要求。此外,多模态指令微调数据需保证指令-响应对的逻辑一致性,这要求采用GPT-4等大模型进行精细化标注,显著增加了构建成本与技术门槛。
常用场景
解决学术问题
该数据集有效解决了多模态融合中的语义鸿沟问题,为跨模态表示学习、模态间对齐和联合嵌入空间构建提供了标准化实验基础。通过大规模高质量标注数据,支持了对视觉问答、跨模态检索、多模态情感分析等核心学术问题的深入研究,显著提升了模型在复杂真实场景中的泛化能力和可解释性。其系统化的分类体系亦促进了多模态学习理论框架的完善与发展。
实际应用
在工业实践层面,该数据集支撑了智能医疗诊断系统的开发,通过融合医学影像与临床文本实现辅助诊断;赋能自动驾驶系统进行多传感器数据融合感知;助力教育科技领域构建跨模态教学内容理解平台。其涵盖的工业检测、机器人导航等垂直领域数据,为实际应用场景提供了可靠的训练基准和性能验证标准。
数据集最近研究
最新研究方向
随着多模态人工智能技术的迅猛发展,Awesome Multimodal Datasets作为跨模态数据资源的集成平台,正推动着视觉-语言-音频融合模型的前沿探索。当前研究热点集中于大规模指令微调数据集如LLaVA-Instruct-150K和MIMIC-IT的应用,这些资源显著提升了多模态大模型在复杂推理、场景理解和跨任务泛化方面的性能。在医疗领域,MIMIC-CXR与PathGen-1.6M等数据集助力AI辅助诊断技术的突破;自动驾驶方面,nuScenes与WayMoCo支持多传感器融合的3D环境感知研究。同时,新兴的Video-MME长视频分析基准和SQA3D空间推理数据集,正推动多模态模型向更精细的时空理解和具身智能方向演进,为构建通用人工智能系统提供关键数据支撑。
以上内容由遇见数据集搜集并总结生成



