SEACrowd/indspeech_news_tts

Name: SEACrowd/indspeech_news_tts
Creator: SEACrowd
Published: 2024-06-24 13:32:11
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/indspeech_news_tts

下载链接

链接失效反馈

官方服务：

资源简介：

INDspeech_NEWS_TTS是一个用于开发印尼语文本到语音合成系统的语音数据集。该数据由日本先进通信研究所（ATR）在亚洲语音翻译高级研究（A-STAR）项目下开发。数据集支持的任务是文本到语音转换，并提供了使用`datasets`和`seacrowd`库加载数据集的示例代码。数据集的版本信息、许可证和引用文献也在README中列出。

INDspeech_NEWS_TTS is a speech dataset for developing an Indonesian text-to-speech synthesis system. The data was developed by Advanced Telecommunication Research Institute International (ATR) Japan under the the Asian speech translation advanced research (A-STAR) project. The dataset supports the task of text-to-speech conversion and provides example code for loading the dataset using the `datasets` and `seacrowd` libraries. The datasets version information, license, and citation references are also listed in the README.

提供机构：

SEACrowd

原始信息汇总

数据集概述

语言

印尼语 (ind)

支持任务

文本到语音 (Text To Speech)

数据集使用

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/INDspeech_NEWS_TTS", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("INDspeech_NEWS_TTS", schema="seacrowd")

检查数据集的所有可用子集（配置名称）

print(sc.available_config_names("INDspeech_NEWS_TTS"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

https://github.com/s-sakti/data_indsp_news_tts

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

数据集许可证

CC-BY-NC-SA 4.0

引用

plaintext @inproceedings{sakti-tts-cocosda-2008, title = "Development of HMM-based Indonesian Speech Synthesis", author = "Sakti, Sakriani and Maia, Ranniery and Sakai, Shinsuke and Nakamura, Satoshi", booktitle = "Proc. Oriental COCOSDA", year = "2008", pages = "215--220", address = "Kyoto, Japan" }

@inproceedings{sakti-tts-malindo-2010, title = "Quality and Intelligibility Assessment of Indonesian HMM-Based Speech Synthesis System", author = "Sakti, Sakriani and Sakai, Shinsuke and Isotani, Ryosuke and Kawai, Hisashi and Nakamura, Satoshi", booktitle = "Proc. MALINDO", year = "2010", pages = "51--57", address = "Jakarta, Indonesia" }

@article{sakti-s2st-csl-2013, title = "{A-STAR}: Toward Tranlating Asian Spoken Languages", author = "Sakti, Sakriani and Paul, Michael and Finch, Andrew and Sakai, Shinsuke and Thang, Tat Vu, and Kimura, Noriyuki and Hori, Chiori and Sumita, Eiichiro and Nakamura, Satoshi and Park, Jun and Wutiwiwatchai, Chai and Xu, Bo and Riza, Hammam and Arora, Karunesh and Luong, Chi Mai and Li, Haizhou", journal = "Special issue on Speech-to-Speech Translation, Computer Speech and Language Journal", volume = "27", number ="2", pages = "509--527", year = "2013", publisher = "Elsevier" }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

INDspeech_NEWS_TTS数据集由日本先进电信研究所（ATR）在国际亚洲语音翻译高级研究（A-STAR）项目框架下构建，旨在支持印度尼西亚语的文本到语音合成系统的开发。该数据集通过精心设计的语音采集和处理流程，确保了语音数据的高质量和多样性，为后续的语音合成研究提供了坚实的基础。

特点

INDspeech_NEWS_TTS数据集的主要特点在于其专注于印度尼西亚语的语音合成，涵盖了丰富的语音样本和文本内容，能够有效支持多种语音合成任务。此外，数据集的构建遵循严格的语音学标准，确保了语音数据的清晰度和自然度，适合用于开发高质量的语音合成系统。

使用方法

使用INDspeech_NEWS_TTS数据集时，用户可以通过HuggingFace的`datasets`库或`seacrowd`库进行加载。通过`datasets`库，用户可以简单地调用`load_dataset`函数加载数据集。而通过`seacrowd`库，用户不仅可以加载默认配置的数据集，还可以根据需要选择特定的子集进行加载。详细的加载方法和配置选项可以在数据集的官方文档中找到。

背景与挑战

背景概述

INDspeech_NEWS_TTS数据集是由日本先进通信研究所（ATR）在国际亚洲语音翻译高级研究（A-STAR）项目下开发的，旨在支持印度尼西亚语的文本到语音合成系统的研究。该数据集的核心研究问题是如何有效地将文本转换为自然流畅的语音，这对于提升语音合成技术在多语言环境中的应用具有重要意义。主要研究人员包括Sakti, Sakriani等人，他们的研究成果在2008年至2013年间发表，对语音合成领域产生了深远影响。

当前挑战

INDspeech_NEWS_TTS数据集面临的挑战主要集中在两个方面。首先，构建一个高质量的印度尼西亚语文本到语音合成系统需要克服语言特有的发音和语调问题，确保生成的语音自然且易于理解。其次，数据集的构建过程中，研究人员需要处理大量的语音数据，确保数据的多样性和代表性，以提高模型的泛化能力。此外，跨文化背景下的语音合成研究也需要考虑不同地区的语言习惯和口音差异，这对数据集的质量和应用范围提出了更高的要求。

常用场景

经典使用场景

INDspeech_NEWS_TTS数据集主要用于开发印度尼西亚语的文本到语音合成系统。该数据集通过提供高质量的语音数据，帮助研究者和开发者构建自然流畅的语音合成模型，特别适用于新闻播报等需要高清晰度和自然语音的场景。

实际应用

INDspeech_NEWS_TTS数据集在实际应用中广泛用于新闻播报、语音助手、教育软件等领域。其高质量的语音数据使得这些应用能够提供更加自然和流畅的用户体验，特别是在需要高清晰度语音的场景中，如广播和在线教育。

衍生相关工作

基于INDspeech_NEWS_TTS数据集，研究者们开发了多种印度尼西亚语的语音合成模型，并在此基础上进行了多语言语音合成系统的研究。此外，该数据集还促进了亚洲语言语音合成技术的跨语言研究，推动了语音合成技术在亚洲语言中的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集