five

Nexdata/319977_Sentences_Mandarin_Polyphone_Corpus_Data

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/319977_Sentences_Mandarin_Polyphone_Corpus_Data
下载链接
链接失效反馈
官方服务:
资源简介:
普通话多音字语料库数据专为多音字消歧设计,包含603个常见的汉语拼音发音,根据单个词中的短语数量,语音语料库的数量有所不同。数据集包括603个汉字-拼音对和319,977个句子,数据来源于新闻和口语句子,注释了句子中特定多音字的拼音发音,适用于语音合成,字符准确率达到99%。

普通话多音字语料库数据专为多音字消歧设计,包含603个常见的汉语拼音发音,根据单个词中的短语数量,语音语料库的数量有所不同。数据集包括603个汉字-拼音对和319,977个句子,数据来源于新闻和口语句子,注释了句子中特定多音字的拼音发音,适用于语音合成,字符准确率达到99%。
提供机构:
Nexdata
原始信息汇总

数据集概述

数据集名称

Mandarin Polyphone Corpus Data

数据集目的

用于多音字消歧

数据内容

  • 包含603个常见普通话拼音发音
  • 319,977个句子

数据来源

  • 新闻
  • 口语句子

标注内容

特定多音字在句子中的普通话拼音发音

语言

中文

应用场景

语音合成

准确率

字符准确率达到99%

许可证

商业许可证

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作