Malaysian-Emilia-v2
收藏Hugging Face2025-06-18 更新2025-06-19 收录
下载链接:
https://huggingface.co/datasets/mesolitica/Malaysian-Emilia-v2
下载链接
链接失效反馈官方服务:
资源简介:
Malaysian-Emilia-v2是一个多语言、多样化的语音数据集,旨在用于大规模的马来西亚和新加坡语音生成任务。数据集包含音频文件信息、文本、时间戳、说话者信息等,并分为两个部分:新加坡播客和马来西亚播客。
提供机构:
Mesolitica
创建时间:
2025-06-18
原始信息汇总
Malaysian-Emilia-v2 数据集概述
基本信息
- 许可证: CC-BY-NC-4.0
- 语言: 英语 (en)、马来语 (ms)
- 数据集名称: Malaysian-Emilia-v2
- 规模分类: 1M < n < 10M
数据集结构
特征
audio_filename: 字符串类型folder: 字符串类型text: 字符串类型start: 浮点数类型 (float64)end: 浮点数类型 (float64)speaker: 字符串类型language: 字符串类型dnsmos: 浮点数类型 (float64)
数据分块
- sg_podcast
- 字节数: 129,096,552
- 样本数: 238,134
- malaysian_podcast
- 字节数: 135,554,342
- 样本数: 261,843
下载与存储
- 下载大小: 77,374,759 字节
- 数据集大小: 264,650,894 字节
配置
- 默认配置
- 数据文件路径:
sg_podcast: data/sg_podcast-*malaysian_podcast: data/malaysian_podcast-*
- 数据文件路径:
数据集描述
- 用途: 大规模马来西亚和新加坡语音生成的广泛、多语言和多样化语音数据集。
- 版本说明: 版本2修复了 Amphion 问题 #436。
下载与提取
bash huggingface-cli download --repo-type dataset --include *.zip --local-dir ./ --max-workers 20 mesolitica/Malaysian-Emilia-v2 wget https://gist.githubusercontent.com/huseinzol05/2e26de4f3b29d99e993b349864ab6c10/raw/9b2251f3ff958770215d70c8d82d311f82791b78/unzip.py python3 unzip.py
源代码
- GitHub 仓库: mesolitica/Emilia
许可声明
- 所有视频、歌曲、图像和图形归其各自所有者所有。
- 根据《版权法》第107条的合理使用条款,允许用于批评、评论、新闻报道、教学、学术和教育研究等目的。
搜集汇总
数据集介绍

构建方式
Malaysian-Emilia-v2数据集通过整合新加坡和马来西亚的播客资源,构建了一个广泛、多语言且多样化的语音数据集。该数据集采用分布式处理方式,将音频文件分割为多个压缩包,便于高效下载和提取。数据预处理过程中,每个音频文件均标注了起止时间、说话人信息、语言标签以及音频质量评分,确保了数据的完整性和可用性。
特点
该数据集涵盖了英语和马来语两种语言,包含超过50万条语音样本,总数据量接近265MB。其独特之处在于提供了详细的元数据,如说话人身份、语言类型及音频质量评分(DNSMOS),为语音生成和语音识别研究提供了丰富的基础资源。数据集的多样性体现在不同说话人和不同语言环境的语音样本上,适用于多场景下的模型训练。
使用方法
用户可通过HuggingFace提供的命令行工具下载数据集,并利用附带的Python脚本解压分卷压缩文件。数据集按来源分为新加坡播客和马来西亚播客两个子集,便于针对性研究。使用时需注意版权声明,确保符合‘合理使用’原则。数据集的元数据结构清晰,可直接用于语音生成、语音识别等任务的模型训练与评估。
背景与挑战
背景概述
Malaysian-Emilia-v2数据集是由Mesolitica机构构建的一个多语言、多样化的语音数据集,旨在支持大规模马来西亚和新加坡语音生成的研究。该数据集基于Emilia项目,由OpenMMLab团队开发,专注于解决语音生成领域中的多语言和多样性问题。数据集包含英语和马来语两种语言的语音样本,涵盖了新加坡和马来西亚的播客内容,为语音合成和语音识别研究提供了丰富的资源。其构建背景反映了对东南亚地区多语言语音数据的迫切需求,填补了该领域的数据空白。
当前挑战
Malaysian-Emilia-v2数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,该数据集旨在解决多语言语音生成的复杂性问题,尤其是马来语和英语混合语音的生成与识别,这对模型的跨语言泛化能力提出了较高要求。构建过程中,数据收集和标注的复杂性是一个主要挑战,尤其是处理多语言播客内容时,需要确保语音质量和文本对齐的准确性。此外,数据集的版权问题也需要谨慎处理,以确保所有内容的合法使用。
常用场景
经典使用场景
在语音生成与处理领域,Malaysian-Emilia-v2数据集以其多语言特性和大规模样本成为研究东南亚语言语音合成的理想选择。该数据集广泛应用于语音合成模型的训练与评估,特别是在处理马来西亚语和新加坡英语的混合语音场景时表现出色。研究人员利用其丰富的语音样本和精确的时间标注,能够构建高质量的端到端语音合成系统。
实际应用
在商业应用中,该数据集为开发面向马来西亚和新加坡市场的智能语音助手、自动字幕生成系统提供了核心数据支持。其包含的播客语音数据特别适合训练具有自然对话风格的语音合成引擎,被广泛应用于客服机器人、有声读物制作等需要多语言混合处理的现实场景。
衍生相关工作
基于该数据集衍生的经典工作包括Amphion项目中的多语言语音合成框架,以及针对东南亚语言的语音质量评估系统。GitHub上的开源项目Emilia进一步扩展了该数据集的应用范围,催生了多个关于低资源语言语音合成的学术论文和技术报告。
以上内容由遇见数据集搜集并总结生成



