MattyB95/VoxCelebSpoof
收藏Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MattyB95/VoxCelebSpoof
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
language:
- en
pretty_name: VoxCelebSpoof
task_categories:
- audio-classification
- text-to-speech
tags:
- code
size_categories:
- 100K<n<1M
---
# VoxCelebSpoof
VoxCelebSpoof is a dataset related to detecting spoofing attacks on automatic speaker verification systems. This dataset is part of a broader effort to improve the security of voice biometric systems against various types of spoofing attacks, such as replay attacks, voice synthesis, and voice conversion.
## Dataset Details
### Dataset Description
The VoxCelebSpoof dataset includes a range of audio samples from different types of synthesis spoofs. The goal of the dataset is to develop systems that can accurately distinguish between genuine and spoofed audio samples.
Key features and objectives of VoxCelebSpoof include:
- **Data Diversity:** The dataset is derived from VoxCeleb, a large-scale speaker identification dataset containing celebrity interviews. Due to this, the spoofing detection models trained on VoxCelebSpoof are exposed to various accents, languages, and acoustic environments.
- **Synthetic Varieties:** The spoofs include a variety of synthetic (TTS) attacks, such as high-quality synthetic speech, using AI-based voice cloning, and challenging systems to recognise and defend against a range of synthetic vulnerabilities.
- **Benchmarking:** VoxCelebSpoof can serve as a benchmark for comparing the performance of different spoofing detection systems under standardised conditions.
- **Research and Development:** The dataset encourages the research community to innovate in anti-spoofing for voice biometric systems, promoting advancements in techniques like feature extraction, classification algorithms, and deep learning.
- **Curated by:** Matthew Boakes
- **Funded by:** Bill & Melinda Gates Foundation
- **Shared by:** Alan Turing Institute
- **Language(s) (NLP):** English
- **License:** MIT
### Dataset Sources [optional]
<!-- Provide the basic links for the dataset. -->
- **Repository:** [More Information Needed]
- **Paper [optional]:** [More Information Needed]
- **Demo [optional]:** [More Information Needed]
## Uses
<!-- Address questions around how the dataset is intended to be used. -->
### Direct Use
<!-- This section describes suitable use cases for the dataset. -->
[More Information Needed]
### Out-of-Scope Use
<!-- This section addresses misuse, malicious use, and uses that the dataset will not work well for. -->
[More Information Needed]
## Dataset Structure
<!-- This section provides a description of the dataset fields, and additional information about the dataset structure such as criteria used to create the splits, relationships between data points, etc. -->
[More Information Needed]
## Dataset Creation
### Curation Rationale
<!-- Motivation for the creation of this dataset. -->
[More Information Needed]
### Source Data
<!-- This section describes the source data (e.g. news text and headlines, social media posts, translated sentences, ...). -->
#### Data Collection and Processing
<!-- This section describes the data collection and processing process such as data selection criteria, filtering and normalization methods, tools and libraries used, etc. -->
[More Information Needed]
#### Who are the source data producers?
<!-- This section describes the people or systems who originally created the data. It should also include self-reported demographic or identity information for the source data creators if this information is available. -->
[More Information Needed]
### Annotations [optional]
<!-- If the dataset contains annotations which are not part of the initial data collection, use this section to describe them. -->
#### Annotation process
<!-- This section describes the annotation process such as annotation tools used in the process, the amount of data annotated, annotation guidelines provided to the annotators, interannotator statistics, annotation validation, etc. -->
[More Information Needed]
#### Who are the annotators?
<!-- This section describes the people or systems who created the annotations. -->
[More Information Needed]
#### Personal and Sensitive Information
<!-- State whether the dataset contains data that might be considered personal, sensitive, or private (e.g., data that reveals addresses, uniquely identifiable names or aliases, racial or ethnic origins, sexual orientations, religious beliefs, political opinions, financial or health data, etc.). If efforts were made to anonymize the data, describe the anonymization process. -->
[More Information Needed]
## Bias, Risks, and Limitations
<!-- This section is meant to convey both technical and sociotechnical limitations. -->
[More Information Needed]
### Recommendations
<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
Users should be made aware of the risks, biases and limitations of the dataset. More information needed for further recommendations.
## Citation [optional]
<!-- If there is a paper or blog post introducing the dataset, the APA and Bibtex information for that should go in this section. -->
**BibTeX:**
[More Information Needed]
**APA:**
[More Information Needed]
## Glossary [optional]
<!-- If relevant, include terms and calculations in this section that can help readers understand the dataset or dataset card. -->
[More Information Needed]
## More Information [optional]
[More Information Needed]
## Dataset Card Authors [optional]
[More Information Needed]
## Dataset Card Contact
[More Information Needed]
---
license: MIT许可证
language:
- 英语
pretty_name: VoxCelebSpoof
task_categories:
- 音频分类
- 文本转语音
tags:
- 代码
size_categories:
- 10万<n<100万
---
# VoxCelebSpoof数据集
VoxCelebSpoof是一款面向自动说话人验证系统(automatic speaker verification system)欺骗攻击检测的数据集。本数据集是提升语音生物识别系统(voice biometric system)安全性的整体研究计划的一部分,旨在抵御各类语音欺骗攻击,包括重放攻击(replay attack)、语音合成(voice synthesis)与语音转换(voice conversion)。
## 数据集详情
### 数据集描述
VoxCelebSpoof数据集包含多类合成欺骗攻击对应的音频样本,其核心目标是开发可精准区分真实音频与欺骗音频的检测系统。
VoxCelebSpoof的关键特性与目标包括:
- **数据多样性**:本数据集源自大规模说话人识别数据集VoxCeleb(VoxCeleb),后者收录了名人访谈音频。因此,基于VoxCelebSpoof训练的欺骗检测模型,将接触到多样化的口音、语言与声学环境。
- **合成攻击多样性**:数据集包含多种文本转语音(Text-To-Speech,简称TTS)合成攻击,例如基于人工智能语音克隆的高质量合成语音,旨在让检测系统能够识别并抵御各类合成语音欺骗漏洞。
- **基准测试功能**:VoxCelebSpoof可作为基准数据集,用于在标准化条件下对比不同欺骗检测系统的性能表现。
- **研发促进作用**:本数据集可推动语音生物识别系统反欺骗领域的研究创新,助力特征提取、分类算法与深度学习等相关技术的迭代升级。
- **数据整理者**:马修·博克斯(Matthew Boakes)
- **资助方**:比尔及梅琳达·盖茨基金会(Bill & Melinda Gates Foundation)
- **共享方**:艾伦·图灵研究所(Alan Turing Institute)
- **(自然语言处理所用)语言**:英语
- **许可证**:MIT许可证
### 数据集来源(可选)
<!-- 提供数据集的基础链接 -->
- **代码仓库**:[暂无更多信息]
- **相关论文(可选)**:[暂无更多信息]
- **演示项目(可选)**:[暂无更多信息]
## 数据集用途
<!-- 解答该数据集的预期使用场景相关问题 -->
### 直接用途
<!-- 本节描述该数据集的适用场景 -->
[暂无更多信息]
### 超出适用范围的用途
<!-- 本节说明误用、恶意使用,以及本数据集无法良好适配的使用场景 -->
[暂无更多信息]
## 数据集结构
<!-- 本节描述数据集字段,以及数据集结构的额外信息,例如划分数据集所用的标准、数据点之间的关系等 -->
[暂无更多信息]
## 数据集构建
### 整理初衷
<!-- 说明创建本数据集的动机 -->
[暂无更多信息]
### 源数据
<!-- 本节描述源数据(例如新闻文本与标题、社交媒体帖文、翻译语句等) -->
#### 数据收集与处理
<!-- 本节描述数据收集与处理流程,例如数据选择标准、过滤与归一化方法、所用工具与库等 -->
[暂无更多信息]
#### 源数据生产者是谁?
<!-- 本节描述最初创建该数据的个人或系统。若可获取源数据创建者的自我报告人口统计或身份信息,也应在此说明 -->
[暂无更多信息]
### 标注(可选)
<!-- 若数据集包含非初始数据收集阶段的标注内容,请用本节描述标注相关信息 -->
#### 标注流程
<!-- 本节描述标注流程,例如标注所用工具、标注数据量、提供给标注人员的标注指南、标注者间一致性统计、标注验证等 -->
[暂无更多信息]
#### 标注人员是谁?
<!-- 本节描述创建标注内容的个人或系统 -->
[暂无更多信息]
#### 个人与敏感信息
<!-- 说明数据集是否包含可被视为个人、敏感或隐私的数据(例如,泄露地址、唯一可识别的姓名或别名、种族或族裔出身、性取向、宗教信仰、政治观点、金融或健康数据等)。若已采取措施对数据进行匿名化,请说明匿名化流程 -->
[暂无更多信息]
## 偏差、风险与局限性
<!-- 本节用于说明技术与社会技术层面的局限性 -->
[暂无更多信息]
### 建议
<!-- 本节用于给出与数据集偏差、风险及技术局限性相关的建议 -->
用户应充分了解本数据集存在的风险、偏差与局限性,后续需进一步补充相关建议。
## 引用(可选)
<!-- 若有介绍本数据集的论文或博客文章,应在此处给出APA和BibTeX格式的引用信息 -->
**BibTeX格式引用**:
[暂无更多信息]
**APA格式引用**:
[暂无更多信息]
## 术语表(可选)
<!-- 若有需要,可在此列出可帮助读者理解数据集或数据集卡片的术语与计算公式 -->
[暂无更多信息]
## 更多信息(可选)
[暂无更多信息]
## 数据集卡片作者(可选)
[暂无更多信息]
## 数据集卡片联系人
[暂无更多信息]
提供机构:
MattyB95
原始信息汇总
VoxCelebSpoof
VoxCelebSpoof是一个用于检测自动说话人验证系统中欺骗攻击的数据集。该数据集旨在提高语音生物识别系统对各种类型欺骗攻击(如重放攻击、语音合成和语音转换)的安全性。
数据集详情
数据集描述
VoxCelebSpoof数据集包含来自不同类型合成欺骗的音频样本。数据集的目标是开发能够准确区分真实和欺骗音频样本的系统。
VoxCelebSpoof的关键特点和目标包括:
- 数据多样性: 数据集源自VoxCeleb,这是一个大规模的说话人识别数据集,包含名人访谈。因此,基于VoxCelebSpoof训练的欺骗检测模型会接触到各种口音、语言和声学环境。
- 合成品种: 欺骗包括多种合成(TTS)攻击,如高质量合成语音,使用基于AI的语音克隆,挑战系统识别和防御一系列合成漏洞。
- 基准测试: VoxCelebSpoof可以作为比较不同欺骗检测系统在标准化条件下性能的基准。
- 研究和开发: 该数据集鼓励研究社区在语音生物识别系统的反欺骗方面进行创新,促进特征提取、分类算法和深度学习等技术的发展。
数据集来源 [可选]
- 存储库: [需要更多信息]
- 论文 [可选]: [需要更多信息]
- 演示 [可选]: [需要更多信息]
使用
直接使用
[需要更多信息]
超出范围的使用
[需要更多信息]
数据集结构
[需要更多信息]
数据集创建
创建理由
[需要更多信息]
源数据
数据收集和处理
[需要更多信息]
源数据生产者是谁?
[需要更多信息]
标注 [可选]
标注过程
[需要更多信息]
标注者是谁?
[需要更多信息]
个人和敏感信息
[需要更多信息]
偏差、风险和限制
[需要更多信息]
建议
用户应了解数据集的风险、偏差和技术限制。需要更多信息以提供进一步建议。
引用 [可选]
BibTeX:
[需要更多信息]
APA:
[需要更多信息]
术语表 [可选]
[需要更多信息]
更多信息 [可选]
[需要更多信息]
数据集卡片作者 [可选]
[需要更多信息]
数据集卡片联系
[需要更多信息]
搜集汇总
数据集介绍

构建方式
VoxCelebSpoof数据集的构建基于VoxCeleb这一大规模的说话人识别数据集,通过引入多种合成语音攻击样本,旨在提升自动说话人验证系统的安全性。该数据集包含了来自不同语言、口音和声学环境的音频样本,涵盖了高质量的合成语音、AI语音克隆等多种合成攻击类型。通过这种方式,数据集为研究者提供了一个多样化的测试平台,以开发和评估反欺骗技术。
特点
VoxCelebSpoof数据集的主要特点在于其数据多样性和合成攻击的广泛性。数据集不仅包含了来自不同语言和口音的真实语音样本,还引入了多种合成语音攻击,如高质量的合成语音和AI语音克隆,从而为模型提供了丰富的训练和测试数据。此外,该数据集还可用作标准化的基准,用于比较不同欺骗检测系统的性能。
使用方法
VoxCelebSpoof数据集适用于音频分类和语音合成任务,主要用于开发和评估自动说话人验证系统中的反欺骗技术。研究者可以利用该数据集训练和测试模型,以识别和区分真实语音与合成语音。通过对比不同模型在该数据集上的表现,可以推动反欺骗技术的创新和发展,提升语音生物识别系统的安全性。
背景与挑战
背景概述
VoxCelebSpoof数据集是针对自动说话人验证系统中欺骗攻击检测的研究而创建的。该数据集由Matthew Boakes精心策划,并得到了比尔及梅琳达·盖茨基金会的资助,由艾伦图灵研究所共享。其核心研究问题在于开发能够准确区分真实音频与合成音频的系统,以提升语音生物识别系统的安全性。VoxCelebSpoof数据集源自VoxCeleb,一个包含名人访谈的大规模说话人识别数据集,因此其音频样本涵盖了多种口音、语言和声学环境,为反欺骗技术的研究提供了丰富的多样性。
当前挑战
VoxCelebSpoof数据集面临的挑战主要集中在两个方面。首先,由于数据集包含多种合成语音攻击,如高质量的合成语音和基于AI的语音克隆,检测系统需要具备识别和防御这些复杂合成攻击的能力。其次,数据集的构建过程中,如何确保音频样本的多样性和代表性,以及如何处理和标注这些复杂的音频数据,都是技术上的重大挑战。此外,该数据集的广泛应用也带来了对模型泛化能力和鲁棒性的高要求,以应对不断变化的欺骗技术。
常用场景
经典使用场景
VoxCelebSpoof数据集的经典使用场景主要集中在自动说话人验证系统的防欺骗检测上。该数据集通过提供多种合成语音攻击样本,帮助研究者和开发者训练和评估防欺骗模型,以区分真实语音和合成语音。其多样化的音频样本涵盖了不同的口音、语言和声学环境,使得模型能够在复杂多变的场景中进行有效的防欺骗检测。
实际应用
在实际应用中,VoxCelebSpoof数据集被广泛用于开发和测试防欺骗系统,以保护语音生物识别系统免受合成语音攻击。这些系统在金融、安全、通信等领域具有重要应用,能够有效防止身份欺诈和未经授权的访问。通过使用该数据集,开发者可以构建更加安全和可靠的语音识别解决方案,提升用户体验和系统信任度。
衍生相关工作
VoxCelebSpoof数据集的发布激发了大量相关研究工作,特别是在语音合成和防欺骗技术领域。研究者们基于该数据集开发了多种先进的防欺骗模型,探索了新的特征提取方法和深度学习架构。此外,该数据集还促进了跨学科的合作,推动了语音合成、语音转换和语音识别技术的融合发展,为未来的语音技术研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



