realnetworks-kontxt/fleurs-hs

Name: realnetworks-kontxt/fleurs-hs
Creator: realnetworks-kontxt
Published: 2024-12-19 09:56:49
License: 暂无描述

Hugging Face2024-12-19 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/realnetworks-kontxt/fleurs-hs

下载链接

链接失效反馈

官方服务：

资源简介：

FLEURS-HS数据集是FLEURS数据集的扩展，主要用于合成语音检测。该数据集包含8种语言（德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语和瑞典语）的样本。数据集中的样本分为‘human’和‘synthetic’两类，其中‘human’样本来自原始FLEURS数据集，‘synthetic’样本通过Google Cloud Text-To-Speech、Azure Text-To-Speech和Amazon Polly生成。数据集的结构包括按语言分类的目录，每个目录下包含训练、开发和测试集的压缩文件，以及元数据文件。

提供机构：

realnetworks-kontxt

原始信息汇总

FLEURS-HS 数据集概述

数据集基本信息

名称: FLEURS-HS
许可证: CC BY 4.0
任务类别: 音频分类
语言: 德语, 英语, 西班牙语, 法语, 意大利语, 荷兰语, 波兰语, 瑞典语
标签: 语音, 语音分类, 文本到语音, 欺骗, 多语言
大小: 10K<n<100K

数据集描述

内容: 该数据集是FLEURS数据集的扩展，用于合成语音检测，通过文本到语音技术生成。包含8种语言的样本：德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、瑞典语。原始FLEURS样本作为human样本，synthetic样本通过Google Cloud Text-To-Speech、Azure Text-To-Speech和Amazon Polly生成。
结构: 数据集包含每个语言的一个目录，内部有名为splits的目录，包含训练、开发和测试集的压缩文件。每个压缩文件内部分为human和synthetic两个目录，存放相应的.wav文件。
使用: 主要用于训练合成语音检测模型。每个样本包含一个Audio特征和一个标签human或synthetic。

数据集来源与使用

来源: 原始数据来自HuggingFace。
使用示例: 通过代码片段加载特定语言和分割的数据集。

数据集元数据

元数据文件: 包括录音元数据、录音转录、语音分布和语音元数据，用于研究和跟踪模型使用情况。

数据集样本

样本结构: 包含audio特征（路径、数组、采样率）和label（human或synthetic）。

引用信息

论文: 合成语音检测与Wav2Vec 2.0在多种语言环境中的应用，将发表于IEEE国际声学、语音和信号处理研讨会。
BibTeX: 待更新。

5,000+

优质数据集

54 个

任务类型

进入经典数据集