DeepSpeak Dataset v1.0

Name: DeepSpeak Dataset v1.0
Creator: 加州大学伯克利分校
Published: 2024-08-10 06:29:43
License: 暂无描述

arXiv2024-08-10 更新2024-08-14 收录

下载链接：

https://huggingface.co/datasets/faridlab/deepspeak_v1

下载链接

链接失效反馈

官方服务：

资源简介：

DeepSpeak Dataset v1.0是由加州大学伯克利分校和斯坦福大学联合创建的大规模音频视频数据集，旨在支持数字取证领域的研究。该数据集包含6226条记录，涵盖220名参与者的真实和深度伪造视频，总计34小时。数据集通过Prolific研究招募平台收集，确保了性别和种族的多样性。创建过程中，参与者通过自定义的Google Chrome应用录制视频，随后进行音频和视频的合成与处理。该数据集主要用于开发和评估深度伪造检测技术，支持学术研究和非商业用途。

The DeepSpeak Dataset v1.0 is a large-scale audio-visual dataset jointly developed by the University of California, Berkeley and Stanford University, intended to support research in the field of digital forensics. This dataset contains 6,226 records, covering both authentic and deepfake videos from 220 participants, with a total duration of 34 hours. It was collected via the Prolific research recruitment platform, which ensures diversity in gender and ethnicity. During the dataset creation process, participants recorded videos using a custom Google Chrome application, followed by audio and video synthesis and processing. This dataset is primarily used for developing and evaluating deepfake detection technologies, and supports academic research and non-commercial use.

提供机构：

加州大学伯克利分校

创建时间：

2024-08-10

搜集汇总

数据集介绍

构建方式

DeepSpeak Dataset v1.0 是一个包含真实视频和深度伪造视频的大规模数据集，旨在帮助数字取证社区。数据集的真实视频部分由220名不同个体的9小时视频组成。伪造视频部分由超过25小时的深度伪造视频组成，包括使用最先进的换脸和唇同步技术的深度伪造，以及自然和人工智能生成的声音。这些视频是通过参与者同意录制的，并且为了保持多样性，参与者是从不同性别、年龄和种族/族裔背景中招募的。数据集的构建过程包括录制参与者对一系列提示的响应，然后使用这些响应生成深度伪造视频。此外，还使用了ElevenLabs的语音克隆API来生成与原始视频匹配的合成语音。

特点

DeepSpeak Dataset v1.0 的特点在于其多样性、真实性和深度伪造技术的广泛性。数据集包含了来自不同性别、年龄和种族/族裔背景的参与者的视频，确保了样本的多样性。所有的视频都是通过参与者同意录制的，保证了视频的真实性。此外，数据集中的深度伪造视频使用了多种不同的技术和模型，包括换脸和唇同步技术，以及自然和人工智能生成的声音，为研究提供了广泛的选择。

使用方法

DeepSpeak Dataset v1.0 可用于研究和非商业用途，包括深度伪造检测、声音合成和视频编辑等。研究人员可以使用该数据集来训练和评估深度伪造检测模型，以识别和防止深度伪造视频的传播。此外，数据集中的真实视频和深度伪造视频还可以用于声音合成和视频编辑等任务，例如生成与原始视频匹配的合成语音或创建新的深度伪造视频。数据集的可用性对于媒体取证研究和人工智能技术的发展具有重要意义。

背景与挑战

背景概述

在数字媒体伪造技术飞速发展的背景下，DeepSpeak Dataset v1.0的创建旨在为数字取证研究提供支持。该数据集由Sarah Barrington、Matyas Bohacek和Hany Farid等研究人员于2024年发布，主要研究人员来自加州大学伯克利分校和斯坦福大学。DeepSpeak Dataset v1.0是一个包含真实和深度伪造视频的大型数据集，旨在帮助研究人员开发和完善检测深度伪造音频、图像和视频的技术。数据集包括来自220名不同个体的9小时真实视频，以及超过25小时的各种先进深度伪造视频，包括面部交换、唇形同步和音频深度伪造。DeepSpeak Dataset v1.0对数字取证领域的研究具有重大影响力，为研究人员提供了宝贵的资源，以应对不断进步的深度伪造技术带来的挑战。

当前挑战

DeepSpeak Dataset v1.0面临的主要挑战包括：1) 随着深度伪造技术的快速发展，需要不断更新数据集以保持其相关性；2) 在构建过程中，需要确保数据集的质量和多样性，同时保护参与者的隐私；3) 需要开发更先进的检测技术，以应对不断变化的深度伪造技术。此外，数据集的构建还需要考虑如何平衡真实性和逼真度，以及如何处理不同文化和语言背景下的深度伪造视频。

常用场景

经典使用场景

DeepSpeak Dataset v1.0是一个大规模的数据集，包含真实和深度伪造的视频片段，用于训练和评估数字取证系统。该数据集在数字取证领域有着广泛的应用，例如训练深度伪造检测模型，以及开发用于识别和认证视频内容的技术。此外，该数据集还可以用于研究深度伪造技术本身，以及如何更好地保护网络空间的隐私和安全。

衍生相关工作

DeepSpeak Dataset v1.0衍生了许多相关的经典工作。例如，基于该数据集，研究人员开发了多种深度伪造检测模型，以及用于识别和认证视频内容的技术。此外，该数据集还促进了深度伪造技术本身的研究，以及如何更好地保护网络空间的隐私和安全。这些相关工作包括但不限于深度伪造检测模型、视频内容认证技术、深度伪造技术本身的研究等。

数据集最近研究