Kaamel-Dict
收藏arXiv2024-09-13 更新2024-09-17 收录
下载链接:
https://huggingface.co/datasets/MahtaFetrat/KaamelDict
下载链接
链接失效反馈官方服务:
资源简介:
Kaamel-Dict是由谢里夫理工大学计算机工程系创建的波斯语G2P转换词典,包含超过120,000个字素-音素对,是目前最大的波斯语G2P词典。该数据集通过整合多个现有词典和新的资源构建而成,旨在解决波斯语中字素到音素转换的复杂性。数据集的创建过程包括统一不同词典的音素表示格式,并合并所有可用资源。Kaamel-Dict主要应用于语音处理领域,特别是文本到语音合成系统,旨在提高G2P转换的准确性和效率。
Kaamel-Dict is a Persian grapheme-to-phoneme (G2P) conversion dictionary developed by the Department of Computer Engineering at Sharif University of Technology. Containing over 120,000 grapheme-phoneme pairs, it is currently the largest Persian G2P dictionary. This dataset is constructed by integrating multiple existing dictionaries and newly developed resources, aiming to address the complexity of grapheme-to-phoneme conversion in Persian. The creation process of this dataset involves unifying the phoneme representation formats of various existing dictionaries and consolidating all available resources. Kaamel-Dict is primarily applied in the field of speech processing, particularly in text-to-speech (TTS) systems, with the objective of improving the accuracy and efficiency of G2P conversion.
提供机构:
谢里夫理工大学计算机工程系
创建时间:
2024-09-13
原始信息汇总
Kaamel-Dict: A Comprehensive Persian G2P Dictionary
概述
- 名称: Kaamel-Dict
- 类型: 波斯语字素到音素(G2P)词典
- 大小: 120,000+ 条目
- 语言: 波斯语
- 任务类别: 翻译
- 标签: grapheme-to-phoneme, g2p, phoneme-translation, persian, farsi, dictionary, glossary, kaamel-dict
- 许可证: GNU General Public License
描述
Kaamel-Dict 是最大的公开可用波斯语字素到音素(G2P)词典,包含超过120,000个条目。该词典通过整合多个现有G2P工具和数据集的音标表示系统开发而成,适用于开发G2P模型、波斯语文本到语音(TTS)系统或语言学研究。
音素表示
该数据集使用的音标符号对应波斯语音素,具体符号及其IPA等价物如下:
| 符号 | 波斯语音 | IPA等价物 | 示例 |
|---|---|---|---|
| A | آ, ا (长元音) | æ | ماه: mAh |
| a | َ (短元音) | ɒː | درد: dard |
| u | او (长元音) | uː | دوست: dust |
| i | ای (长元音) | iː | میز: miz |
| o | ُ (短元音) | o | ظهر: zohr |
| e | ِ (短元音) | e | ذهن: zehn |
| S | ش (辅音) | ʃ | شهر: Sahr |
| C | چ (辅音) | tʃʰ | چتر: Catr |
| Z | ژ (辅音) | ʒ | ژاله: ZAle |
| q | غ، ق (辅音) | ɣ, q | غذا: qazA, قند: qand |
| x | خ (辅音) | x | خاک: xAk |
| r | ر (辅音) | ɾ | روح: ruh |
| y | ی (辅音) | j | یار: yAr |
| j | ج (辅音) | dʒ | نجات: nejAt |
| v | و (辅音) | v | ورم: varam |
| ? | ع، ء، ئ (辅音) | ʔ | عمر: ?omr, آینده: ?Ayande |
使用方法
- 下载: KaamelDict.csv
- 克隆:
git clone https://huggingface.co/datasets/MahtaFetrat/KaamelDict
引用
bash TO BE UPDATED
搜集汇总
数据集介绍

构建方式
Kaamel-Dict数据集的构建基于多个现有的波斯语G2P工具所使用的词典,包括Tihu-Dict、IPA-Dict和Wiktionary等。这些词典的规模从约2,000到54,000个字符-音素对不等。研究团队还整合了来自波斯语Jame Glossary的新资源,并通过开发一个模块统一了这些数据集的音素表示格式,最终合并成一个包含超过120,000个条目的数据集,成为迄今为止最大的波斯语G2P词典。
特点
Kaamel-Dict数据集的主要特点在于其规模和多样性。作为最大的波斯语G2P词典,它包含了超过120,000个字符-音素对,涵盖了广泛的词汇和发音变体。此外,该数据集的构建过程中统一了不同来源的音素表示格式,确保了数据的一致性和可用性。
使用方法
Kaamel-Dict数据集适用于多种自然语言处理任务,特别是波斯语的音素转换和语音合成。研究人员和开发者可以利用该数据集训练和评估G2P模型,提升模型在波斯语中的表现。数据集的开放许可也使得其可以广泛应用于学术研究和工业应用中。
背景与挑战
背景概述
在语音处理领域,Grapheme-to-Phoneme(G2P)转换是实现文本到语音(TTS)模型的关键组件。然而,对于具有多音字和上下文敏感音素的语言,如波斯语,G2P转换变得尤为复杂。波斯语中的短元音(变音符号)通常在书面形式中被省略,导致发音模糊。此外,Ezafe音素的存在与否取决于上下文,进一步增加了G2P任务的难度。为了应对这些挑战,Mahta Fetrat Qharabagh、Zahra Dehghanian和Hamid R. Rabiee等研究人员在Sharif University of Technology开发了Kaamel-Dict数据集,该数据集包含了超过120,000个波斯语G2P条目,是目前最大的波斯语G2P字典。该数据集的创建旨在评估大型语言模型(LLMs)在G2P转换中的性能,并提出了创新的提示和后处理方法,以在不进行额外训练或标记数据的情况下增强LLM的输出。
当前挑战
Kaamel-Dict数据集的构建面临多重挑战。首先,波斯语中的多音字和上下文敏感音素使得G2P转换任务异常复杂。其次,现有的G2P工具主要依赖于有限的字典,难以处理词汇外的案例。此外,LLMs在处理波斯语等资源不足的语言时,其有效性受到训练数据中音素数据和资源的限制。为了克服这些挑战,研究人员提出了多种提示技术和后处理方法,以优化LLM在G2P任务中的表现。这些方法包括使用Finglish(波斯语的拉丁字母拼写)进行提示,以及基于规则和LLM的词典校正技术。尽管如此,如何在不增加训练成本的情况下,进一步提升LLM在波斯语G2P任务中的性能,仍是一个亟待解决的问题。
常用场景
经典使用场景
在语音处理领域,Kaamel-Dict数据集的经典应用场景主要体现在其用于评估和提升大型语言模型(LLMs)在音素转换任务中的表现。具体而言,该数据集被广泛用于训练和测试G2P(Grapheme-to-Phoneme)转换模型,特别是在处理波斯语等具有多音字和上下文敏感音素的语言时。通过使用Kaamel-Dict,研究者能够更准确地评估LLMs在音素转换中的性能,并探索不同的提示工程和后处理方法以优化模型输出。
解决学术问题
Kaamel-Dict数据集在学术研究中解决了多个关键问题。首先,它填补了波斯语音素转换数据集的空白,为研究者提供了一个大规模、高质量的基准数据集。其次,该数据集通过提供丰富的音素标注,帮助研究者深入理解波斯语中的上下文敏感音素和多音字现象,从而推动了G2P转换技术的发展。此外,Kaamel-Dict还促进了LLMs在音素转换任务中的应用研究,展示了这些模型在处理复杂语言现象时的潜力。
衍生相关工作
Kaamel-Dict数据集的发布催生了多项相关研究工作。首先,基于该数据集,研究者开发了多种改进的G2P转换模型,特别是在处理波斯语中的多音字和上下文敏感音素方面取得了显著进展。其次,该数据集促进了提示工程和后处理方法的研究,使得LLMs在音素转换任务中的表现得到了显著提升。此外,Kaamel-Dict还激发了更多关于低资源语言音素转换的研究,推动了相关领域的发展。
以上内容由遇见数据集搜集并总结生成



