Multimodal dataset catalog

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/MuSAELab/Multimodal-dataset-catalog

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库列出了公开可用的多模态数据集，包括视觉-音频、语音和音频、以及生物医学信号相关的任务。数据集定期更新，涵盖了多种应用场景和语言。

This repository catalogs publicly available multimodal datasets, encompassing tasks related to visual-audio, speech and audio, as well as biomedical signals. The datasets are regularly updated, covering a wide range of application scenarios and languages.

创建时间：

2023-06-20

原始信息汇总

数据集概述

视觉-音频数据集

FaceForensics
- 包含5k+视频
- 内容为面部交换
- 多数视频音频非英语
Deepfake Detection Challenge Dataset (DFDC)
- 包含10k+视频
- 内容为面部交换
- 视频音频为英语
DF-TIMIT
- 包含600+视频
- 内容为面部交换
- 视频音频为英语
Celeb-DF
- 包含6k+视频
- 内容为面部交换
- 视频音频为英语
FakeAVCeleb
- 包含20k+视频
- 内容为假音频和面部
- 视频音频为英语
WildDeepfake
- 包含7k+视频
- 内容来自互联网

语音数据集

MLAAD
- 包含多语言深度伪造音频
- 由23种TTS和VC系统生成
ASVspoof 2021
- 包含600K语音片段
- 来自多种生成算法和编解码器
WaveFake
- 包含基于LJ语音语料库的伪造语音
- 每个真实语音对应多个伪造版本
In-the-wild
- 包含真实和伪造的名人声音
Partial Spoof
- 包含部分伪造的语音片段
- 混合了伪造和真实段落
SceneFake
- 包含声音场景被伪造但声音本身未变的音频
Singfake
- 包含28.93小时真实和29.40小时伪造的歌曲片段
- 来自40位歌手的五种语言

医疗健康数据集

The UK COVID-19 Vocal Audio Dataset
- 包含72,999名参与者的音频记录
- 包括自愿咳嗽、呼气和语音
- 关联SARS-CoV-2 PCR测试结果
Cambridge COVID Sound
- 包含约300小时的声音、咳嗽和呼吸数据
- 来自健康和COVID个体
- 包含丰富的元数据
Coswara
- 包含COVID-19声音（语音、咳嗽、呼吸）
- 收集自印度
ComParE 2021 COVID Detection Dataset
- 包含约3K音频样本
- 来自COVID和健康个体
TORGO
- 包含实验室中患有构音障碍的个体的语音记录
- 提供文本真相和发音轨迹
KSoF-C
- 包含5K 3秒语音片段
- 来自37位德国口吃者
- 用于INTERSPEECH 2022 ComParE挑战的数据集
DAIC-WOZ
- 包含189名参与者的音视频访谈
- 用于评估心理压力
- 包含约58小时音频数据
MDVR-KCL
- 包含健康和帕金森病患者的脚本和自发语音记录
- 标签为二元PD/健康

搜集汇总

数据集介绍

构建方式

Multimodal dataset catalog 数据集的构建方式主要通过收集和整理公开可用的多模态数据集，涵盖视觉-音频、音频与语音、生物医学信号等多个领域。这些数据集来自不同的研究项目和挑战赛，如Kaggle的全球多媒体Deepfake检测竞赛、FaceForensics、Deepfake Detection Challenge Dataset等。每个数据集都经过详细的分类和标注，确保数据的质量和多样性。此外，数据集的更新频率较高，以确保包含最新的研究成果和技术进展。

特点

该数据集的特点在于其多模态性和广泛的应用领域。它不仅包括视觉和音频的结合，还涉及生物医学信号，如EEG和ECG等。数据集中的每个子集都具有明确的分类和详细的元数据，便于研究人员进行深入分析。此外，数据集的多样性体现在其涵盖了多种语言、不同的生成算法和编解码器，为跨文化和跨技术的研究提供了丰富的资源。

使用方法

使用Multimodal dataset catalog数据集时，用户可以根据研究需求选择特定的模态和子集。例如，对于视觉-音频研究，可以选择Deepfake相关的数据集进行分析；对于语音研究，可以选择ASVspoof或WaveFake等数据集。每个数据集通常提供详细的文档和使用指南，用户需遵循相应的许可协议和访问权限。此外，数据集的持续更新意味着用户可以定期获取最新的数据资源，以保持研究的时效性和前沿性。

背景与挑战

背景概述

Multimodal dataset catalog 是一个汇集了多种模态数据集的资源库，涵盖了视觉-音频、音频与语音、生物医学信号（如EEG、ECG等）等多个领域。该数据集由主要研究人员或机构定期更新，旨在为多模态数据研究提供全面的资源支持。其核心研究问题集中在多模态数据的整合与分析，特别是在深度伪造检测、语音识别和生物医学信号处理等领域。该数据集的创建时间可追溯至2024年7月24日，其影响力在于为相关领域的研究者提供了丰富的数据资源，推动了多模态数据分析技术的发展。

当前挑战

Multimodal dataset catalog 面临的挑战主要包括：1) 数据集的多样性和复杂性，不同模态的数据整合与分析需要克服技术上的难题；2) 数据集的更新与维护，确保数据的时效性和完整性，避免遗漏最新的数据资源；3) 数据隐私与安全问题，特别是在生物医学信号和深度伪造检测领域，如何保护用户隐私和数据安全是一个重要的挑战；4) 数据标注与分类的准确性，确保数据集的质量和可靠性，以便研究者能够进行有效的实验和分析。

常用场景

经典使用场景

Multimodal dataset catalog 数据集的经典使用场景主要集中在多模态数据的融合分析与应用。特别是在视觉-音频领域，该数据集提供了丰富的深度伪造（Deepfake）视频和音频数据，这些数据被广泛用于深度伪造检测算法的研究与开发。例如，Kaggle的Global Multimedia Deepfake Detection竞赛数据集，包含了25万条视频，涵盖了多种深度伪造类型，为研究者提供了检测音频-视频伪造的宝贵资源。此外，该数据集还涵盖了语音和生物医学信号数据，如EEG和ECG，这些数据在医疗诊断、语音识别等领域具有广泛的应用前景。

解决学术问题

Multimodal dataset catalog 数据集解决了多模态数据处理中的关键学术问题，特别是在深度伪造检测和生物医学信号分析领域。通过提供高质量的多模态数据，该数据集支持了深度学习模型在伪造检测中的应用，解决了传统方法在识别复杂伪造内容时的局限性。此外，生物医学信号数据的引入，为研究者提供了新的工具来分析和诊断疾病，如通过EEG和ECG数据进行脑电波和心脏活动的监测，从而推动了医疗诊断技术的进步。

衍生相关工作

Multimodal dataset catalog 数据集的发布催生了一系列相关研究工作，特别是在深度伪造检测和多模态数据融合领域。例如，基于该数据集的研究已经开发出多种深度伪造检测算法，这些算法在识别伪造音频和视频方面表现出色。此外，该数据集还促进了多模态学习的发展，研究者通过融合视觉、音频和生物信号数据，开发出更加智能和全面的数据分析模型。这些衍生工作不仅推动了学术研究的进展，也为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集