five

realnetworks-kontxt/fleurs-hs

收藏
Hugging Face2024-12-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/realnetworks-kontxt/fleurs-hs
下载链接
链接失效反馈
官方服务:
资源简介:
FLEURS-HS数据集是FLEURS数据集的扩展,主要用于合成语音检测。该数据集包含8种语言(德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语和瑞典语)的样本。数据集中的样本分为‘human’和‘synthetic’两类,其中‘human’样本来自原始FLEURS数据集,‘synthetic’样本通过Google Cloud Text-To-Speech、Azure Text-To-Speech和Amazon Polly生成。数据集的结构包括按语言分类的目录,每个目录下包含训练、开发和测试集的压缩文件,以及元数据文件。

FLEURS-HS数据集是FLEURS数据集的扩展,主要用于合成语音检测。该数据集包含8种语言(德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语和瑞典语)的样本。数据集中的样本分为‘human’和‘synthetic’两类,其中‘human’样本来自原始FLEURS数据集,‘synthetic’样本通过Google Cloud Text-To-Speech、Azure Text-To-Speech和Amazon Polly生成。数据集的结构包括按语言分类的目录,每个目录下包含训练、开发和测试集的压缩文件,以及元数据文件。
提供机构:
realnetworks-kontxt
原始信息汇总

FLEURS-HS 数据集概述

数据集基本信息

  • 名称: FLEURS-HS
  • 许可证: CC BY 4.0
  • 任务类别: 音频分类
  • 语言: 德语, 英语, 西班牙语, 法语, 意大利语, 荷兰语, 波兰语, 瑞典语
  • 标签: 语音, 语音分类, 文本到语音, 欺骗, 多语言
  • 大小: 10K<n<100K

数据集描述

  • 内容: 该数据集是FLEURS数据集的扩展,用于合成语音检测,通过文本到语音技术生成。包含8种语言的样本:德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、瑞典语。原始FLEURS样本作为human样本,synthetic样本通过Google Cloud Text-To-Speech、Azure Text-To-Speech和Amazon Polly生成。
  • 结构: 数据集包含每个语言的一个目录,内部有名为splits的目录,包含训练、开发和测试集的压缩文件。每个压缩文件内部分为humansynthetic两个目录,存放相应的.wav文件。
  • 使用: 主要用于训练合成语音检测模型。每个样本包含一个Audio特征和一个标签humansynthetic

数据集来源与使用

  • 来源: 原始数据来自HuggingFace
  • 使用示例: 通过代码片段加载特定语言和分割的数据集。

数据集元数据

  • 元数据文件: 包括录音元数据、录音转录、语音分布和语音元数据,用于研究和跟踪模型使用情况。

数据集样本

  • 样本结构: 包含audio特征(路径、数组、采样率)和labelhumansynthetic)。

引用信息

  • 论文: 合成语音检测与Wav2Vec 2.0在多种语言环境中的应用,将发表于IEEE国际声学、语音和信号处理研讨会。
  • BibTeX: 待更新。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作