HomoRich

Name: HomoRich
Creator: 计算机工程系，Sharif大学科技学院
Published: 2025-05-19 19:11:12
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/MahtaFetrat/HomoRich-G2P-Persian

下载链接

链接失效反馈

官方服务：

资源简介：

HomoRich数据集是由Sharif大学科技学院的计算机工程系的研究人员创建的，旨在解决低资源语言中同形异义词消歧问题。该数据集是首个也是最大的波斯语同形异义词数据集，包含528,891条注音波斯语句子，涵盖了285个同形异义词，每个词都有多个发音。数据集是通过半自动流程构建的，结合了人工和语言模型（LLM）生成的句子，并从多个波斯语语料库中收集了数据。数据集的创建过程包括文本语料库的收集、同形异义词的识别、句子生成和注音。HomoRich数据集的应用领域主要包括提高同形异义词消歧的准确性，以及为低延迟的实时应用（如屏幕阅读器）开发快速、基于规则的语音转换系统。

The HomoRich dataset was developed by researchers from the Department of Computer Engineering, School of Science and Technology, Sharif University of Technology, aiming to address the homograph disambiguation problem in low-resource languages. It is the first and largest Persian homograph dataset, containing 528,891 phonetically annotated Persian sentences covering 285 homographs, each with multiple distinct pronunciations. The dataset was constructed via a semi-automatic pipeline, combining manually created and large language model (LLM)-generated sentences, as well as data collected from multiple Persian corpora. The dataset creation process includes four key stages: text corpus collection, homograph identification, sentence generation and phonetic annotation. The main application scenarios of the HomoRich dataset include improving the accuracy of homograph disambiguation, and developing fast, rule-based speech conversion systems for low-latency real-time applications such as screen readers.

提供机构：

计算机工程系，Sharif大学科技学院

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

HomoRich数据集的构建采用了半自动化的流程，旨在解决低资源语言中同形异义词（homograph）消歧的挑战。首先，研究团队从KaamelDict波斯语G2P词典中筛选出具有多种发音的单词，并通过人工审核确定了285个具有实际应用价值的同形异义词。随后，通过结合人工标注和大型语言模型（GPT-4o）生成的方式，创建了包含多样化和平衡的句子样本。此外，数据集还整合了来自ManaTTS、GPTInformal和CommonVoice等公开语料库的句子，以增强数据的多样性和覆盖面。最后，利用先前研究中开发的LLM辅助音素标注方法，为所有句子添加了音素序列标签。

特点

HomoRich数据集是目前波斯语中规模最大且首个专注于同形异义词消歧的公开数据集，包含528,891个标注句子。其显著特点包括：（1）覆盖285个同形异义词，每个词平均有超过1,000个不同的上下文例句；（2）通过精心设计的数据平衡策略，确保每个发音变体都有相近数量的样本，避免模型偏向高频发音；（3）包含来自多种来源的数据（人工标注、GPT-4o生成、公开语料库），涵盖正式和非正式文体；（4）提供两种音素表示格式，确保与现有研究工具的兼容性。数据集还通过同义词替换、句子重组和上下文拼接等数据增强方法，进一步提升了样本多样性。

使用方法

HomoRich数据集支持波斯语G2P转换和同形异义词消歧的双重研究目标。使用时可分为三个层次：（1）对于通用G2P任务，可直接使用句子-音素对进行端到端模型训练；（2）针对同形异义词消歧，可利用标注的同形异义词及其发音变体，训练上下文感知的分类模型；（3）数据集还可用于增强规则基系统的性能，如研究中展示的通过统计方法提升eSpeak引擎的消歧能力。评估时建议使用独立的SentenceBench测试集，以确保结果可比性。数据以CC0-1.0许可证发布，支持学术和商业用途，完整代码和预处理工具已在GitHub开源。

背景与挑战

背景概述

HomoRich数据集由Sharif University of Technology的研究团队于2025年创建，旨在解决波斯语等低资源语言中同形异义词（homograph）消歧的挑战。该数据集是首个针对波斯语的大规模同形异义词数据集，包含528,891个句子，覆盖285个同形异义词，每个词平均有1000多个上下文例句。数据集通过半自动化流程构建，结合了人工标注和大型语言模型（如GPT-4o）生成的内容，并整合了多个公开波斯语语料库（如CommonVoice、ManaTTS）。HomoRich的发布显著提升了波斯语G2P（字素到音素转换）模型的性能，特别是在实时应用（如屏幕阅读器）中的同形异义词消歧准确率。

当前挑战

HomoRich数据集面临的挑战主要包括两方面：1) 领域问题挑战：同形异义词消歧需依赖上下文理解，而低资源语言中此类标注数据稀缺，且传统规则方法缺乏语义建模能力，神经网络方法则存在推理延迟高的问题，难以满足实时需求；2) 构建挑战：数据平衡性要求高（需均衡覆盖每个同形异义词的不同发音），人工标注成本昂贵，且自动化生成时LLM易偏向高频发音。此外，波斯语的Ezafe（连接音素）等语境敏感现象进一步增加了标注复杂度。

常用场景

经典使用场景

HomoRich数据集在自然语言处理领域，尤其是波斯语的文本转语音（TTS）系统中，扮演着关键角色。该数据集专门针对波斯语中的同形异义词（homograph）设计，这些词在拼写相同但发音不同的情况下，需要通过上下文进行准确区分。数据集的应用场景主要集中在提升G2P（字素到音素）转换模型的性能，特别是在低资源语言环境下，通过提供丰富的上下文标注数据，帮助模型更准确地预测发音。

衍生相关工作

HomoRich数据集催生了多项相关研究和技术改进。其中最著名的是Homo-GE2PE，一个基于T5架构的神经G2P模型，通过在该数据集上的微调，实现了同形异义词歧义消除的显著提升。此外，HomoFast eSpeak作为基于规则的G2P系统，通过引入轻量级的统计方法，结合该数据集，在不牺牲速度的情况下大幅提升了准确率。这些工作为低资源语言的G2P研究提供了新的思路和工具。

数据集最近研究