five

Chinese Polyphones with Pinyin (CPP)|汉语多音字数据集|语音合成数据集

收藏
arXiv2020-09-17 更新2024-06-21 收录
汉语多音字
语音合成
下载链接:
https://github.com/kakaobrain/g2pM
下载链接
链接失效反馈
资源简介:
Chinese Polyphones with Pinyin (CPP) 数据集是由韩国科学技术院创建,旨在解决汉语拼音转换中的多音字问题。该数据集包含超过99,000个句子,专门用于训练和测试多音字发音的识别模型。数据集通过从维基百科提取中文文本,并由两名母语为中文的标注者进行人工标注,确保每个多音字的发音准确无误。CPP数据集的应用领域主要集中在汉语语音合成系统中,以提高多音字发音的准确性和自然度。
提供机构:
韩国科学技术院
创建时间:
2020-04-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建Chinese Polyphones with Pinyin (CPP)数据集时,研究团队首先从最新的中文维基百科数据中提取了纯中文文本,并过滤掉包含繁体字或长度不符合要求的句子。随后,他们筛选出包含至少一个多音字的句子,并在这些句子中随机标记一个多音字。为了确保数据的平衡性,团队对每个多音字的句子数量进行了裁剪,使其在10到250之间。最后,两名母语为中文的标注者对每个多音字进行标注,并确保标注结果的一致性。
特点
CPP数据集的显著特点在于其规模和多样性。该数据集包含了超过99,000个句子,涵盖了623个多音字,每个多音字平均有159个句子。此外,数据集中的多音字具有不同的发音可能性,其中88.8%的多音字有两种发音,9.6%的有三种发音,而极少数(1.6%)有多达五种发音。这种多样性使得CPP数据集成为研究多音字消歧的理想资源。
使用方法
使用CPP数据集时,研究者可以将其分为训练集、开发集和测试集,比例为8:1:1。数据集的结构使得研究者能够训练和评估各种多音字消歧模型。此外,研究团队还开发了一个名为g2pM的Python库,该库基于CPP数据集训练的模型,能够方便地将中文文本转换为拼音。用户只需几行代码即可调用该库,实现中文文本的拼音转换。
背景与挑战
背景概述
在汉语语音合成系统中,汉字到拼音(G2P)转换是一个关键步骤。由于汉字本身不直接表示发音,因此需要通过G2P转换将汉字文本转换为拼音。然而,汉字中存在多音字现象,即同一个汉字在不同语境下有不同的发音,这为G2P转换带来了巨大挑战。尽管已有许多学术研究致力于解决这一问题,但长期以来缺乏一个公开的标准基准数据集,使得不同研究之间的比较变得困难。为此,Kyubyong Park和Seanie Lee在2020年创建了Chinese Polyphones with Pinyin (CPP)数据集,该数据集包含超过99,000个句子,旨在为汉语多音字消歧提供一个标准基准。这一数据集的发布不仅填补了领域的空白,还推动了相关研究的进展,特别是在文本到语音合成领域。
当前挑战
CPP数据集的构建面临多重挑战。首先,多音字消歧本身是一个复杂的问题,需要模型能够根据上下文准确判断汉字的发音。其次,数据集的构建过程中,研究人员需要从大量文本中筛选出包含多音字的句子,并进行人工标注,以确保数据的准确性和一致性。此外,由于多音字在不同语境下的发音频率不同,数据集的平衡性也是一个重要挑战。最后,尽管CPP数据集的发布为研究提供了基准,但如何进一步提升模型的性能,特别是在处理罕见多音字和复杂语境下的消歧问题,仍然是未来研究的重点。
常用场景
经典使用场景
Chinese Polyphones with Pinyin (CPP) 数据集在汉语拼音转换系统中扮演着至关重要的角色。其经典使用场景主要体现在汉语多音字的发音消歧任务中。通过提供大量包含多音字的句子及其正确拼音标注,CPP 数据集为训练和评估拼音转换模型提供了坚实的基础。例如,在文本到语音(TTS)系统中,正确识别多音字的发音对于生成自然流畅的语音输出至关重要。
实际应用
在实际应用中,CPP 数据集及其衍生的拼音转换工具广泛应用于各种需要汉语文本处理的场景。例如,在智能语音助手、机器翻译、语音识别和语音合成等领域,准确的多音字发音消歧是确保系统性能的关键。此外,教育软件和语言学习平台也可以利用这些工具来提供更准确的拼音教学和发音指导。
衍生相关工作
基于 CPP 数据集,研究者们开发了多种拼音转换模型和工具,如 g2pM 库。这些工作不仅提升了拼音转换的准确性,还促进了相关技术的普及和应用。例如,双向长短期记忆网络(Bi-LSTM)和预训练语言模型(如 BERT)在拼音转换任务中的应用,展示了深度学习技术在这一领域的巨大潜力。此外,g2pM 库的发布为开发者提供了便捷的拼音转换接口,进一步推动了技术的实际应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。

huggingface 收录

WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T

该仓库收集了多种与手语识别和翻译相关的数据集,旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型(如RGB、深度、骨骼)和来自不同国家的数据,用于支持手语识别和翻译技术的研究。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

CT-ORG

3D CT, 140 Cases, 6 Categories of Organ Segmentation.

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录