Chinese Polyphones with Pinyin (CPP)
收藏arXiv2020-09-17 更新2024-06-21 收录
下载链接:
https://github.com/kakaobrain/g2pM
下载链接
链接失效反馈官方服务:
资源简介:
Chinese Polyphones with Pinyin (CPP) 数据集是由韩国科学技术院创建,旨在解决汉语拼音转换中的多音字问题。该数据集包含超过99,000个句子,专门用于训练和测试多音字发音的识别模型。数据集通过从维基百科提取中文文本,并由两名母语为中文的标注者进行人工标注,确保每个多音字的发音准确无误。CPP数据集的应用领域主要集中在汉语语音合成系统中,以提高多音字发音的准确性和自然度。
The Chinese Polyphones with Pinyin (CPP) dataset was developed by the Korea Advanced Institute of Science and Technology (KAIST) to address the challenge of polyphonic character pronunciation in Chinese pinyin conversion. This dataset contains over 99,000 sentences, and is specifically designed for training and testing models for polyphonic character pronunciation recognition. The CPP dataset is constructed by extracting Chinese texts from Wikipedia, followed by manual annotation conducted by two native Chinese speakers, ensuring the accurate pronunciation of every polyphonic character. The primary application scope of the CPP dataset lies in Chinese speech synthesis systems, aiming to enhance the accuracy and naturalness of polyphonic character pronunciation.
提供机构:
韩国科学技术院
创建时间:
2020-04-07
搜集汇总
数据集介绍

构建方式
在构建Chinese Polyphones with Pinyin (CPP)数据集时,研究团队首先从最新的中文维基百科数据中提取了纯中文文本,并过滤掉包含繁体字或长度不符合要求的句子。随后,他们筛选出包含至少一个多音字的句子,并在这些句子中随机标记一个多音字。为了确保数据的平衡性,团队对每个多音字的句子数量进行了裁剪,使其在10到250之间。最后,两名母语为中文的标注者对每个多音字进行标注,并确保标注结果的一致性。
特点
CPP数据集的显著特点在于其规模和多样性。该数据集包含了超过99,000个句子,涵盖了623个多音字,每个多音字平均有159个句子。此外,数据集中的多音字具有不同的发音可能性,其中88.8%的多音字有两种发音,9.6%的有三种发音,而极少数(1.6%)有多达五种发音。这种多样性使得CPP数据集成为研究多音字消歧的理想资源。
使用方法
使用CPP数据集时,研究者可以将其分为训练集、开发集和测试集,比例为8:1:1。数据集的结构使得研究者能够训练和评估各种多音字消歧模型。此外,研究团队还开发了一个名为g2pM的Python库,该库基于CPP数据集训练的模型,能够方便地将中文文本转换为拼音。用户只需几行代码即可调用该库,实现中文文本的拼音转换。
背景与挑战
背景概述
在汉语语音合成系统中,汉字到拼音(G2P)转换是一个关键步骤。由于汉字本身不直接表示发音,因此需要通过G2P转换将汉字文本转换为拼音。然而,汉字中存在多音字现象,即同一个汉字在不同语境下有不同的发音,这为G2P转换带来了巨大挑战。尽管已有许多学术研究致力于解决这一问题,但长期以来缺乏一个公开的标准基准数据集,使得不同研究之间的比较变得困难。为此,Kyubyong Park和Seanie Lee在2020年创建了Chinese Polyphones with Pinyin (CPP)数据集,该数据集包含超过99,000个句子,旨在为汉语多音字消歧提供一个标准基准。这一数据集的发布不仅填补了领域的空白,还推动了相关研究的进展,特别是在文本到语音合成领域。
当前挑战
CPP数据集的构建面临多重挑战。首先,多音字消歧本身是一个复杂的问题,需要模型能够根据上下文准确判断汉字的发音。其次,数据集的构建过程中,研究人员需要从大量文本中筛选出包含多音字的句子,并进行人工标注,以确保数据的准确性和一致性。此外,由于多音字在不同语境下的发音频率不同,数据集的平衡性也是一个重要挑战。最后,尽管CPP数据集的发布为研究提供了基准,但如何进一步提升模型的性能,特别是在处理罕见多音字和复杂语境下的消歧问题,仍然是未来研究的重点。
常用场景
经典使用场景
Chinese Polyphones with Pinyin (CPP) 数据集在汉语拼音转换系统中扮演着至关重要的角色。其经典使用场景主要体现在汉语多音字的发音消歧任务中。通过提供大量包含多音字的句子及其正确拼音标注,CPP 数据集为训练和评估拼音转换模型提供了坚实的基础。例如,在文本到语音(TTS)系统中,正确识别多音字的发音对于生成自然流畅的语音输出至关重要。
实际应用
在实际应用中,CPP 数据集及其衍生的拼音转换工具广泛应用于各种需要汉语文本处理的场景。例如,在智能语音助手、机器翻译、语音识别和语音合成等领域,准确的多音字发音消歧是确保系统性能的关键。此外,教育软件和语言学习平台也可以利用这些工具来提供更准确的拼音教学和发音指导。
衍生相关工作
基于 CPP 数据集,研究者们开发了多种拼音转换模型和工具,如 g2pM 库。这些工作不仅提升了拼音转换的准确性,还促进了相关技术的普及和应用。例如,双向长短期记忆网络(Bi-LSTM)和预训练语言模型(如 BERT)在拼音转换任务中的应用,展示了深度学习技术在这一领域的巨大潜力。此外,g2pM 库的发布为开发者提供了便捷的拼音转换接口,进一步推动了技术的实际应用。
以上内容由遇见数据集搜集并总结生成



