smcproject/ml-phonetic-lexicon

Name: smcproject/ml-phonetic-lexicon
Creator: smcproject
Published: 2023-12-02 16:06:40
License: 暂无描述

Hugging Face2023-12-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/smcproject/ml-phonetic-lexicon

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含马拉雅拉姆语脚本中的单词及其在国际音标（IPA）中的发音。这些单词来源于Indic NLP语料库中最常见的10万个单词以及Mlmorph项目中的精选词汇类别。发音是通过Mlphon Python库创建的。该数据集可用于自动语音识别（ASR）和文本到语音（TTS）系统的发音词典，以及训练数据驱动的字素到音素模型。

提供机构：

smcproject

原始信息汇总

数据集概述

基本信息

许可证: cc-by-4.0
任务类别: text2text-generation
语言: ml (马拉雅拉姆语)
数据集名称: Malayalam Grapheme Phoneme Dataset

配置详情

commonword:
- 数据文件: commonword.tsv
- 分隔符: " "
english_loan:
- 数据文件: english_loan.tsv
- 分隔符: " "
noun:
- 数据文件: noun.tsv
- 分隔符: " "
personname:
- 数据文件: personname.tsv
- 分隔符: " "
placename:
- 数据文件: placename.tsv
- 分隔符: " "
pronoun:
- 数据文件: pronoun.tsv
- 分隔符: " "
propernoun:
- 数据文件: propernoun.tsv
- 分隔符: " "
sanskrit_loan:
- 数据文件: sanskrit_loan.tsv
- 分隔符: " "
verb:
- 数据文件: verb.tsv
- 分隔符: " "

数据规模

大小类别: 100K<n<1M

数据来源

最频繁的10万词来自Indic NLP语料库
从Mlmorph项目中精选的词类别集合

应用场景

用于ASR和TTS的发音词典
训练数据驱动的grapheme-to-phoneme模型

引用信息

@ARTICLE{kavya2022mlphon, author={Manohar, Kavya and Jayan, A. R. and Rajan, Rajeev}, journal={IEEE Access}, title={Mlphon: A Multifunctional Grapheme-Phoneme Conversion Tool Using Finite State Transducers}, year={2022}, volume={10}, number={}, pages={97555-97575}, doi={10.1109/ACCESS.2022.3204403}}

5,000+

优质数据集

54 个

任务类型

进入经典数据集