ayousanz/Emilia-Dataset-JA-Plus

Name: ayousanz/Emilia-Dataset-JA-Plus
Creator: ayousanz
Published: 2025-02-23 05:53:33
License: 暂无描述

Hugging Face2025-02-23 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/ayousanz/Emilia-Dataset-JA-Plus

下载链接

链接失效反馈

官方服务：

资源简介：

Emilia数据集是一个全面、多语言的大型语音数据集，包含超过101,000小时的语音数据。它涵盖了六种不同的语言：英语（En）、中文（Zh）、德语（De）、法语（Fr）、日语（Ja）和韩语（Ko）。这个数据集包含了来自互联网上不同视频平台和播客的多样化语音数据，涵盖了各种内容类型，如脱口秀、访谈、辩论、体育评论和有声读物。Emilia数据集还包括了Emilia-Pipe，这是一个开源的语音数据预处理管道，用于将原始的、野外的语音数据转化为高质量的训练数据，并为语音生成提供注释。

The Emilia dataset is a comprehensive, multilingual large-scale speech dataset containing over 101,000 hours of speech data. It covers six different languages: English (En), Chinese (Zh), German (De), French (Fr), Japanese (Ja), and Korean (Ko). The dataset includes diverse speech data from various video platforms and podcasts on the Internet, covering content genres such as talk shows, interviews, debates, sports commentary, and audiobooks. The Emilia dataset also includes Emilia-Pipe, an open-source speech data preprocessing pipeline that transforms raw, in-the-wild speech data into high-quality training data with annotations for speech generation.

提供机构：

ayousanz

5,000+

优质数据集

54 个

任务类型

进入经典数据集