319,977条汉语多音字语料数据【数据堂】
收藏OpenDataLab2024-05-28 更新2024-06-01 收录
下载链接:
https://opendatalab.org.cn/shujutang/shujutang1036
下载链接
链接失效反馈官方服务:
资源简介:
汉语多音字语料数据是为多音字读音消歧所设计的语料库,本套数据中包含603个字音,语料句数根据字音实际词组数量不同而有所差异
The Chinese polyphonic character corpus is a dataset specifically designed for polyphonic character pronunciation disambiguation. It contains 603 distinct pronunciations of polyphonic characters, and the number of corpus sentences varies depending on the actual number of word collocations associated with each pronunciation.
提供机构:
shujutang
创建时间:
2024-05-28
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集专为汉语多音字读音消歧设计,包含603个字音和319,977句语料,语料来源于新闻和口语化句子,并标注了特定多音字的读音。数据为中文商业数据,需通过企业合作购买获取。
以上内容由遇见数据集搜集并总结生成



