Sentence-Bench, Kaamel-Dict

github2025-01-10 更新2025-01-12 收录

下载链接：

https://github.com/MahtaFetrat/LLM-Powered-G2P

下载链接

链接失效反馈

官方服务：

资源简介：

Sentence-Bench是第一个用于波斯语句子级G2P评估的基准数据集。Kaamel-Dict是最大的开源波斯语G2P词典，包含超过120,000个条目。

Sentence-Bench is the first benchmark dataset for Persian sentence-level G2P evaluation. Kaamel-Dict is the largest open-source Persian G2P lexicon, which contains over 120,000 entries.

创建时间：

2025-01-10

原始信息汇总

数据集概述

数据集名称

LLM-Powered Grapheme-to-Phoneme Conversion

数据集简介

该数据集与论文《LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study》相关，主要研究大语言模型（LLMs）在字素到音素（G2P）转换任务中的应用。G2P转换是语音处理系统中的关键组件，特别是在文本到语音（TTS）应用中。论文通过引入新颖的提示和后处理技术，增强了LLM的输出效果，而无需额外的训练或标注数据。

数据集内容

Sentence-Bench：首个用于波斯语句子级G2P评估的基准数据集。
Kaamel-Dict：最大的开源波斯语G2P词典，包含超过120,000个条目。

数据集特点

展示了基于LLM的G2P系统在处理同形异义词和上下文敏感音素方面的优势，尤其是在波斯语等代表性不足的语言中表现突出。

数据集资源

Sentence-Bench：Sentence-Bench
Kaamel-Dict：Kaamel-Dict

论文与引用

论文链接：arXiv
引用格式： bibtex @article{qharabagh2024llm, title={LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study}, author={Qharabagh, Mahta Fetrat and Dehghanian, Zahra and Rabiee, Hamid R}, journal={arXiv preprint arXiv:2409.08554}, year={2024} }

许可证

代码采用MIT许可证。
数据集采用GNU通用公共许可证（GPL），因为它们包含了来自GNU许可词典的数据。

搜集汇总

数据集介绍

构建方式

Sentence-Bench和Kaamel-Dict数据集的构建基于波斯语的字素到音素（G2P）转换任务。Sentence-Bench作为首个波斯语句子级别的G2P基准数据集，通过收集和标注大量波斯语句子，确保其在上下文敏感的音素转换任务中的代表性。Kaamel-Dict则是一个开放许可的波斯语G2P词典，包含超过12万条词条，其构建过程整合了多种开源词典资源，并通过自动化工具和人工校对相结合的方式，确保了词典的准确性和广泛覆盖性。

特点

Sentence-Bench的特点在于其专注于句子级别的G2P转换任务，能够有效评估模型在上下文敏感的音素转换中的表现。Kaamel-Dict作为目前最大的波斯语G2P词典，不仅词条数量庞大，还涵盖了丰富的词汇变体和同音异义词，为波斯语语音处理系统提供了坚实的资源支持。两者均为波斯语这一资源稀缺语言的研究和应用提供了重要的数据基础。

使用方法

Sentence-Bench可用于评估和比较不同G2P模型在波斯语句子级别转换任务中的性能，尤其适用于测试模型在处理同音异义词和上下文敏感音素时的表现。Kaamel-Dict则可作为波斯语语音合成系统的核心词典资源，直接用于生成音素序列或作为训练数据的基础。用户可通过Hugging Face平台获取这两个数据集，并结合提供的代码和工具进行实验和应用开发。

背景与挑战

背景概述

Sentence-Bench和Kaamel-Dict数据集由Mahta Fetrat Qharabagh等人于2024年提出，旨在推动波斯语的字素到音素（G2P）转换研究。G2P转换是语音处理系统的关键组成部分，尤其在文本到语音（TTS）应用中具有重要作用。该研究首次引入了基于大语言模型（LLMs）的G2P转换方法，并通过创新的提示和后处理技术提升了模型性能，无需额外训练或标注数据。Sentence-Bench是首个波斯语句子级别的G2P基准数据集，而Kaamel-Dict则是最大的开源波斯语G2P词典，包含超过12万条词条。这些资源为波斯语等资源稀缺语言的语音处理研究提供了重要支持。

当前挑战

在G2P转换领域，Sentence-Bench和Kaamel-Dict面临的挑战主要包括两个方面。首先，波斯语作为一种形态丰富且具有复杂音系规则的语言，其G2P转换任务需要处理大量同形异义词和上下文相关的音素，这对模型的上下文理解能力提出了极高要求。其次，构建这些数据集的过程中，研究人员需要克服数据稀缺和标注成本高昂的问题，尤其是在缺乏高质量标注资源的波斯语领域。此外，如何确保LLMs在低资源语言上的泛化能力，以及如何设计有效的提示和后处理技术以提升模型性能，也是该领域亟待解决的核心挑战。

常用场景

经典使用场景

Sentence-Bench和Kaamel-Dict数据集在波斯语的字素到音素（G2P）转换任务中具有经典的应用场景。Sentence-Bench作为首个波斯语句子级别的G2P基准数据集，广泛用于评估不同模型在句子层面的音素转换性能。Kaamel-Dict则作为最大的开源波斯语G2P词典，为研究者提供了丰富的词汇资源，支持从单词到音素的精确转换。这两个数据集共同推动了波斯语语音处理系统的开发与优化。

实际应用

在实际应用中，Sentence-Bench和Kaamel-Dict数据集为波斯语文本到语音（TTS）系统的开发提供了重要支持。通过利用这些数据集，开发者能够构建更准确的G2P转换模型，从而提升TTS系统的语音合成质量。此外，这些数据集还被广泛应用于语音识别、语音合成和自然语言处理等领域，为波斯语语音技术的普及和应用奠定了坚实基础。

衍生相关工作

Sentence-Bench和Kaamel-Dict数据集的发布催生了一系列相关研究工作。例如，基于这些数据集的研究提出了新颖的提示和后处理技术，显著提升了LLM在G2P任务中的表现。此外，这些数据集还被用于开发针对波斯语的多模态语音处理系统，进一步推动了波斯语语音技术的研究与应用。相关成果已在多个国际会议和期刊上发表，成为该领域的重要参考文献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集