数据堂—319,977条汉语多音字语料数据
收藏魔搭社区2026-05-17 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/319977Sentences-MandarinPolyphoneCorpusData
下载链接
链接失效反馈官方服务:
资源简介:
汉语多音字语料数据是为多音字读音消歧所设计的语料库,本套数据中包含603个字音,语料句数根据字音实际词组数量不同而有所差异。
The Chinese polyphonic character corpus is a linguistic resource designed specifically for polyphonic character pronunciation disambiguation. This corpus contains 603 phonetic readings, and the number of corpus sentences varies depending on the actual number of phrases corresponding to each phonetic reading.
提供机构:
maas
创建时间:
2024-04-28
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含319,977条汉语多音字语料,涵盖603个字音,主要用于多音字读音消歧任务。语料来源包括新闻类和口语化句子,标注了特定多音字的读音,适用于自然语言理解等任务。
以上内容由遇见数据集搜集并总结生成



