five

hkcancor

收藏
OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/hkcancor?tab=summary
下载链接
链接失效反馈
官方服务:
资源简介:
香港粤语语料库(HKCanCor)包含1997年3月至1998年8月期间录制的转录对话,包括自发语音和广播节目,包含约23万个汉字。该语料库以词为单位进行分词,每个词都标注了词性(POS)和粤语拼音。其数据规模约为1万条对话,主要用于翻译、文本生成和对话建模等任务。语料库中的文本来源于原始录音,由专家进行标注,并采用CC-BY 4.0授权许可。数据集中每个实例都包含对话ID、发言人ID、轮次编号、PRF和UD2.0格式的词性标签,以及汉字和LSHK格式的拼音。
提供机构:
AIWizards
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作