Multimodal dataset catalog
收藏github2024-05-13 更新2024-05-31 收录
下载链接:
https://github.com/MuSAELab/Multimodal-dataset-catalog
下载链接
链接失效反馈官方服务:
资源简介:
本仓库列出了公开可用的多模态数据集,包括视觉-音频、语音和音频、以及生物医学信号相关的任务。数据集定期更新,涵盖了多种应用场景和语言。
This repository catalogs publicly available multimodal datasets, encompassing tasks related to visual-audio, speech and audio, as well as biomedical signals. The datasets are regularly updated, covering a wide range of application scenarios and languages.
创建时间:
2023-06-20
原始信息汇总
数据集概述
视觉-音频数据集
- FaceForensics
- 包含5k+视频
- 内容为面部交换
- 多数视频音频非英语
- Deepfake Detection Challenge Dataset (DFDC)
- 包含10k+视频
- 内容为面部交换
- 视频音频为英语
- DF-TIMIT
- 包含600+视频
- 内容为面部交换
- 视频音频为英语
- Celeb-DF
- 包含6k+视频
- 内容为面部交换
- 视频音频为英语
- FakeAVCeleb
- 包含20k+视频
- 内容为假音频和面部
- 视频音频为英语
- WildDeepfake
- 包含7k+视频
- 内容来自互联网
语音数据集
- MLAAD
- 包含多语言深度伪造音频
- 由23种TTS和VC系统生成
- ASVspoof 2021
- 包含600K语音片段
- 来自多种生成算法和编解码器
- WaveFake
- 包含基于LJ语音语料库的伪造语音
- 每个真实语音对应多个伪造版本
- In-the-wild
- 包含真实和伪造的名人声音
- Partial Spoof
- 包含部分伪造的语音片段
- 混合了伪造和真实段落
- SceneFake
- 包含声音场景被伪造但声音本身未变的音频
- Singfake
- 包含28.93小时真实和29.40小时伪造的歌曲片段
- 来自40位歌手的五种语言
医疗健康数据集
- The UK COVID-19 Vocal Audio Dataset
- 包含72,999名参与者的音频记录
- 包括自愿咳嗽、呼气和语音
- 关联SARS-CoV-2 PCR测试结果
- Cambridge COVID Sound
- 包含约300小时的声音、咳嗽和呼吸数据
- 来自健康和COVID个体
- 包含丰富的元数据
- Coswara
- 包含COVID-19声音(语音、咳嗽、呼吸)
- 收集自印度
- ComParE 2021 COVID Detection Dataset
- 包含约3K音频样本
- 来自COVID和健康个体
- TORGO
- 包含实验室中患有构音障碍的个体的语音记录
- 提供文本真相和发音轨迹
- KSoF-C
- 包含5K 3秒语音片段
- 来自37位德国口吃者
- 用于INTERSPEECH 2022 ComParE挑战的数据集
- DAIC-WOZ
- 包含189名参与者的音视频访谈
- 用于评估心理压力
- 包含约58小时音频数据
- MDVR-KCL
- 包含健康和帕金森病患者的脚本和自发语音记录
- 标签为二元PD/健康
搜集汇总
数据集介绍

构建方式
Multimodal dataset catalog 数据集的构建方式主要通过收集和整理公开可用的多模态数据集,涵盖视觉-音频、音频与语音、生物医学信号等多个领域。这些数据集来自不同的研究项目和挑战赛,如Kaggle的全球多媒体Deepfake检测竞赛、FaceForensics、Deepfake Detection Challenge Dataset等。每个数据集都经过详细的分类和标注,确保数据的质量和多样性。此外,数据集的更新频率较高,以确保包含最新的研究成果和技术进展。
特点
该数据集的特点在于其多模态性和广泛的应用领域。它不仅包括视觉和音频的结合,还涉及生物医学信号,如EEG和ECG等。数据集中的每个子集都具有明确的分类和详细的元数据,便于研究人员进行深入分析。此外,数据集的多样性体现在其涵盖了多种语言、不同的生成算法和编解码器,为跨文化和跨技术的研究提供了丰富的资源。
使用方法
使用Multimodal dataset catalog数据集时,用户可以根据研究需求选择特定的模态和子集。例如,对于视觉-音频研究,可以选择Deepfake相关的数据集进行分析;对于语音研究,可以选择ASVspoof或WaveFake等数据集。每个数据集通常提供详细的文档和使用指南,用户需遵循相应的许可协议和访问权限。此外,数据集的持续更新意味着用户可以定期获取最新的数据资源,以保持研究的时效性和前沿性。
背景与挑战
背景概述
Multimodal dataset catalog 是一个汇集了多种模态数据集的资源库,涵盖了视觉-音频、音频与语音、生物医学信号(如EEG、ECG等)等多个领域。该数据集由主要研究人员或机构定期更新,旨在为多模态数据研究提供全面的资源支持。其核心研究问题集中在多模态数据的整合与分析,特别是在深度伪造检测、语音识别和生物医学信号处理等领域。该数据集的创建时间可追溯至2024年7月24日,其影响力在于为相关领域的研究者提供了丰富的数据资源,推动了多模态数据分析技术的发展。
当前挑战
Multimodal dataset catalog 面临的挑战主要包括:1) 数据集的多样性和复杂性,不同模态的数据整合与分析需要克服技术上的难题;2) 数据集的更新与维护,确保数据的时效性和完整性,避免遗漏最新的数据资源;3) 数据隐私与安全问题,特别是在生物医学信号和深度伪造检测领域,如何保护用户隐私和数据安全是一个重要的挑战;4) 数据标注与分类的准确性,确保数据集的质量和可靠性,以便研究者能够进行有效的实验和分析。
常用场景
经典使用场景
Multimodal dataset catalog 数据集的经典使用场景主要集中在多模态数据的融合分析与应用。特别是在视觉-音频领域,该数据集提供了丰富的深度伪造(Deepfake)视频和音频数据,这些数据被广泛用于深度伪造检测算法的研究与开发。例如,Kaggle的Global Multimedia Deepfake Detection竞赛数据集,包含了25万条视频,涵盖了多种深度伪造类型,为研究者提供了检测音频-视频伪造的宝贵资源。此外,该数据集还涵盖了语音和生物医学信号数据,如EEG和ECG,这些数据在医疗诊断、语音识别等领域具有广泛的应用前景。
解决学术问题
Multimodal dataset catalog 数据集解决了多模态数据处理中的关键学术问题,特别是在深度伪造检测和生物医学信号分析领域。通过提供高质量的多模态数据,该数据集支持了深度学习模型在伪造检测中的应用,解决了传统方法在识别复杂伪造内容时的局限性。此外,生物医学信号数据的引入,为研究者提供了新的工具来分析和诊断疾病,如通过EEG和ECG数据进行脑电波和心脏活动的监测,从而推动了医疗诊断技术的进步。
衍生相关工作
Multimodal dataset catalog 数据集的发布催生了一系列相关研究工作,特别是在深度伪造检测和多模态数据融合领域。例如,基于该数据集的研究已经开发出多种深度伪造检测算法,这些算法在识别伪造音频和视频方面表现出色。此外,该数据集还促进了多模态学习的发展,研究者通过融合视觉、音频和生物信号数据,开发出更加智能和全面的数据分析模型。这些衍生工作不仅推动了学术研究的进展,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



