realnetworks-kontxt/fleurs-hs
收藏Hugging Face2024-12-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/realnetworks-kontxt/fleurs-hs
下载链接
链接失效反馈官方服务:
资源简介:
FLEURS-HS数据集是FLEURS数据集的扩展,主要用于合成语音检测。该数据集包含8种语言(德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语和瑞典语)的样本。数据集中的样本分为‘human’和‘synthetic’两类,其中‘human’样本来自原始FLEURS数据集,‘synthetic’样本通过Google Cloud Text-To-Speech、Azure Text-To-Speech和Amazon Polly生成。数据集的结构包括按语言分类的目录,每个目录下包含训练、开发和测试集的压缩文件,以及元数据文件。
FLEURS-HS数据集是FLEURS数据集的扩展,主要用于合成语音检测。该数据集包含8种语言(德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语和瑞典语)的样本。数据集中的样本分为‘human’和‘synthetic’两类,其中‘human’样本来自原始FLEURS数据集,‘synthetic’样本通过Google Cloud Text-To-Speech、Azure Text-To-Speech和Amazon Polly生成。数据集的结构包括按语言分类的目录,每个目录下包含训练、开发和测试集的压缩文件,以及元数据文件。
提供机构:
realnetworks-kontxt
原始信息汇总
FLEURS-HS 数据集概述
数据集基本信息
- 名称: FLEURS-HS
- 许可证: CC BY 4.0
- 任务类别: 音频分类
- 语言: 德语, 英语, 西班牙语, 法语, 意大利语, 荷兰语, 波兰语, 瑞典语
- 标签: 语音, 语音分类, 文本到语音, 欺骗, 多语言
- 大小: 10K<n<100K
数据集描述
- 内容: 该数据集是FLEURS数据集的扩展,用于合成语音检测,通过文本到语音技术生成。包含8种语言的样本:德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、瑞典语。原始FLEURS样本作为
human样本,synthetic样本通过Google Cloud Text-To-Speech、Azure Text-To-Speech和Amazon Polly生成。 - 结构: 数据集包含每个语言的一个目录,内部有名为
splits的目录,包含训练、开发和测试集的压缩文件。每个压缩文件内部分为human和synthetic两个目录,存放相应的.wav文件。 - 使用: 主要用于训练合成语音检测模型。每个样本包含一个
Audio特征和一个标签human或synthetic。
数据集来源与使用
- 来源: 原始数据来自HuggingFace。
- 使用示例: 通过代码片段加载特定语言和分割的数据集。
数据集元数据
- 元数据文件: 包括录音元数据、录音转录、语音分布和语音元数据,用于研究和跟踪模型使用情况。
数据集样本
- 样本结构: 包含
audio特征(路径、数组、采样率)和label(human或synthetic)。
引用信息
- 论文: 合成语音检测与Wav2Vec 2.0在多种语言环境中的应用,将发表于IEEE国际声学、语音和信号处理研讨会。
- BibTeX: 待更新。



