five

smcproject/ml-phonetic-lexicon

收藏
Hugging Face2023-12-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/smcproject/ml-phonetic-lexicon
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含马拉雅拉姆语脚本中的单词及其在国际音标(IPA)中的发音。这些单词来源于Indic NLP语料库中最常见的10万个单词以及Mlmorph项目中的精选词汇类别。发音是通过Mlphon Python库创建的。该数据集可用于自动语音识别(ASR)和文本到语音(TTS)系统的发音词典,以及训练数据驱动的字素到音素模型。
提供机构:
smcproject
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-4.0
  • 任务类别: text2text-generation
  • 语言: ml (马拉雅拉姆语)
  • 数据集名称: Malayalam Grapheme Phoneme Dataset

配置详情

  • commonword:
    • 数据文件: commonword.tsv
    • 分隔符: " "
  • english_loan:
    • 数据文件: english_loan.tsv
    • 分隔符: " "
  • noun:
    • 数据文件: noun.tsv
    • 分隔符: " "
  • personname:
    • 数据文件: personname.tsv
    • 分隔符: " "
  • placename:
    • 数据文件: placename.tsv
    • 分隔符: " "
  • pronoun:
    • 数据文件: pronoun.tsv
    • 分隔符: " "
  • propernoun:
    • 数据文件: propernoun.tsv
    • 分隔符: " "
  • sanskrit_loan:
    • 数据文件: sanskrit_loan.tsv
    • 分隔符: " "
  • verb:
    • 数据文件: verb.tsv
    • 分隔符: " "

数据规模

  • 大小类别: 100K<n<1M

数据来源

  • 最频繁的10万词来自Indic NLP语料库
  • Mlmorph项目中精选的词类别集合

应用场景

  • 用于ASR和TTS的发音词典
  • 训练数据驱动的grapheme-to-phoneme模型

引用信息

@ARTICLE{kavya2022mlphon, author={Manohar, Kavya and Jayan, A. R. and Rajan, Rajeev}, journal={IEEE Access}, title={Mlphon: A Multifunctional Grapheme-Phoneme Conversion Tool Using Finite State Transducers}, year={2022}, volume={10}, number={}, pages={97555-97575}, doi={10.1109/ACCESS.2022.3204403}}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作