styletts2-community/multilingual-phonemes-10k-alpha
收藏Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/styletts2-community/multilingual-phonemes-10k-alpha
下载链接
链接失效反馈官方服务:
资源简介:
Multilingual Phonemes 10K Alpha数据集包含约10,000对文本和音素,支持15种语言,总计约150,000对。此外,还有一个独立的English-XL数据集,包含100,000对额外的音素化数据。数据集基于CC-BY-SA 3.0许可证发布,数据来源于Wikipedia。数据处理流程包括从Wikipedia下载数据、清理文本、去除超短短语、音素化并保存为JSON格式。
The Multilingual Phonemes 10K Alpha dataset contains approximately 10,000 text-phoneme pairs per supported language, with a total of around 150,000 pairs across 15 languages. Additionally, a standalone English-XL dataset is provided, which contains 100,000 additional phonemized text-phoneme pairs. This dataset is published under the CC-BY-SA 3.0 license, with its source data originating from Wikipedia. The data processing workflow includes downloading raw data from Wikipedia, text cleaning, removing extremely short phrases, phonemization, and saving the processed results in JSON format.
提供机构:
styletts2-community
原始信息汇总
Multilingual Phonemes 10K Alpha
概述
该数据集包含约10,000对文本和音素,涵盖15种语言,总计约150,000对。此外,还包括一个英语扩展数据集(English-XL),包含100,000对独特的音素化文本。
语言支持
支持以下15种语言:
- 英语 (en)
- 英语扩展 (en-xl): 约100,000对音素化文本
- 加泰罗尼亚语 (ca)
- 德语 (de)
- 西班牙语 (es)
- 希腊语 (el)
- 波斯语 (fa)
- 芬兰语 (fi)
- 法语 (fr)
- 意大利语 (it)
- 波兰语 (pl)
- 葡萄牙语 (pt)
- 俄语 (ru)
- 瑞典语 (sv)
- 乌克兰语 (uk)
- 中文 (zh)
许可
数据集基于CC-BY-SA 3.0许可。
数据处理
数据处理流程包括:
- 从维基百科下载数据,按语言选择第一个Parquet文件并命名为语言代码。
- 使用数据预处理脚本进行处理。
- 清理文本。
- 移除极短的短语。
- 音素化。
- 保存为JSON格式。
- 上传数据集。
注意事项
- 东亚语言(如中文)为实验性支持,不区分繁体和简体中文,主要包含简体中文。
- 建议在推理过程中使用转换库(如
hanziconv或chinese-converter)将字符转换为简体中文。



