hkcancor
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/hkcancor?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
香港粤语语料库(HKCanCor)包含1997年3月至1998年8月期间录制的转录对话,包括自发语音和广播节目,包含约23万个汉字。该语料库以词为单位进行分词,每个词都标注了词性(POS)和粤语拼音。其数据规模约为1万条对话,主要用于翻译、文本生成和对话建模等任务。语料库中的文本来源于原始录音,由专家进行标注,并采用CC-BY 4.0授权许可。数据集中每个实例都包含对话ID、发言人ID、轮次编号、PRF和UD2.0格式的词性标签,以及汉字和LSHK格式的拼音。
提供机构:
AIWizards
创建时间:
2024-07-19



