Bahasa Harmony
收藏arXiv2024-10-09 更新2024-10-11 收录
下载链接:
https://bit.ly/3Vi22x9
下载链接
链接失效反馈官方服务:
资源简介:
Bahasa Harmony 是一个为巴哈萨语(Bahasa)设计的综合性文本到语音合成(TTS)数据集,由Yellow.ai的研究团队创建。该数据集包含约55小时的音频记录,共计52,000条,涵盖了多样化的文本来源,确保了语言的丰富性。数据集的创建过程包括从维基百科和chat-GPT翻译中收集文本,并通过专业的录音设备捕捉巴哈萨语的语音细节。该数据集主要用于提升巴哈萨语TTS系统的质量和适应性,旨在解决现有系统在捕捉巴哈萨语细微差别方面的不足。
Bahasa Harmony is a comprehensive text-to-speech synthesis (TTS) dataset designed for the Bahasa language, created by the research team at Yellow.ai. This dataset comprises approximately 55 hours of audio recordings totaling 52,000 entries, with diverse text sources incorporated to ensure rich linguistic variety. The development of the dataset involved collecting text from Wikipedia and ChatGPT-generated translations, as well as capturing the subtle linguistic nuances of Bahasa using professional recording equipment. It is primarily intended to improve the quality and adaptability of Bahasa-language TTS systems, aiming to address the limitations of existing systems in capturing the fine-grained differences inherent to the Bahasa language.
提供机构:
Yellow.ai
创建时间:
2024-10-09
搜集汇总
数据集介绍

构建方式
Bahasa Harmony数据集的构建过程体现了对语言多样性和语音质量的高度重视。该数据集从多个文本源中精心挑选了约55小时的音频记录,涵盖了52,000个音频样本,确保了语言的丰富性和多样性。通过使用专业的录音设备和严格控制的录音环境,数据集捕捉到了巴哈萨语的细微音韵特征,从而提供了高质量的音频样本。此外,数据集的文本部分来源于维基百科和通过chat-GPT翻译的内容,确保了文本的多样性和代表性。
特点
Bahasa Harmony数据集的主要特点在于其广泛的语言覆盖和高质量的音频记录。数据集包含了55小时的音频,涵盖了52,000个录音,每个录音的平均长度为4.06秒,总词汇量达到458,000个,词汇表大小为23,000个。此外,数据集还包括了68,900个句子,平均词频为9.4。这些统计数据表明,该数据集不仅规模庞大,而且具有高度的语言多样性和代表性,非常适合用于先进的神经网络文本到语音模型的训练和评估。
使用方法
Bahasa Harmony数据集适用于多种文本到语音合成(TTS)模型的训练和评估。用户可以通过该数据集训练自定义的TTS模型,以生成高质量的巴哈萨语语音。数据集的多样性和高质量音频记录使其特别适合于需要高保真语音合成的应用场景,如语音助手、教育软件和多语言支持系统。此外,数据集的公开可用性为研究社区提供了一个宝贵的资源,促进了巴哈萨语和其他语言的TTS技术的发展。
背景与挑战
背景概述
巴哈萨和谐(Bahasa Harmony)数据集是由Yellow.ai的研究人员Onkar Kishor Susladkar、Vishesh Tripathi和Biddwan Ahmed精心创建的,旨在解决巴哈萨语(Bahasa)文本到语音合成(TTS)中的关键问题。该数据集涵盖了约55小时的音频记录和52,000个音频样本,整合了多样化的文本来源,确保了语言的丰富性。通过专业的录音设备和精细的录音设置,数据集捕捉了巴哈萨语的语音细节,为高质量的TTS模型训练提供了坚实的基础。该数据集的推出标志着巴哈萨语TTS技术的重要进步,对多语言应用具有深远影响。
当前挑战
巴哈萨和谐数据集在构建过程中面临多项挑战。首先,确保数据集的语音质量和多样性是一个主要挑战,这需要专业的录音设备和精细的录音环境。其次,整合多样化的文本来源以捕捉巴哈萨语的丰富表达,确保数据集的全面性和代表性。此外,数据集的规模和复杂性要求高效的模型训练和评估方法,以充分利用其潜力。最后,如何在保持高质量语音合成的同时,确保模型的计算效率和实时性能,是该数据集面临的另一重要挑战。
常用场景
经典使用场景
Bahasa Harmony数据集在巴哈萨语的文本到语音(TTS)合成领域中扮演着核心角色。其经典使用场景包括开发和评估针对巴哈萨语的TTS系统,这些系统旨在生成自然、流畅且具有文化特色的语音。通过整合多样化的文本来源和高质量的音频记录,该数据集为研究人员提供了一个丰富的资源库,用于训练和验证能够捕捉巴哈萨语细微差别的TTS模型。
衍生相关工作
Bahasa Harmony数据集的发布和EnGen-TTS模型的提出,激发了大量相关研究和工作。例如,基于该数据集的进一步研究已经扩展到多语言TTS系统的开发,特别是在低资源语言的处理上。此外,研究人员还探索了如何将EnGen-TTS的架构和方法应用于其他语言的TTS系统,以提升其性能和适应性。这些衍生工作不仅丰富了TTS技术的理论基础,也为实际应用提供了更多可能性。
数据集最近研究
最新研究方向
近年来,Bahasa Harmony数据集在巴哈萨语(Bahasa)的文本到语音(TTS)合成领域引起了广泛关注。该数据集不仅提供了丰富的语音资源,还引入了一种创新的TTS模型——EnGen-TTS,该模型通过离散编解码建模显著提升了合成语音的质量和多样性。EnGen-TTS模型的核心在于其多语言T5(m-T5)编码器和神经编解码语言建模模块的结合,这不仅优化了合成过程,还提高了模型的适应性和表达能力。此外,该模型在无需额外微调的情况下,展示了出色的跨语言适应性,为巴哈萨语及其他语言的高质量TTS系统开发提供了新的可能性。这一研究方向不仅推动了巴哈萨语TTS技术的前沿发展,还为多语言TTS系统的未来研究奠定了坚实基础。
相关研究论文
- 1Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTSYellow.ai · 2024年
以上内容由遇见数据集搜集并总结生成



