SEACrowd/khpos
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/khpos
下载链接
链接失效反馈官方服务:
资源简介:
khPOS语料库(高棉语词性标注语料库)是一个包含12,000个句子(25,626个单词)的手动分词和词性标注的语料库,专为高棉语的自然语言处理研究和开发而设计。我们从包含经济、新闻、政治等多个领域的网站上收集了高棉语句子。此外,它还包含了一些学生名单和柬埔寨国家选举委员会的选民名单。整个语料库中每个句子的平均单词数为10.75。这里,一些符号如“។”(高棉符号Khan)、“៖”(高棉符号Camnuc pii kuuh)、“-”、“?”、“[”、“]”等也被计为单词。最短的句子只包含1个单词,最长的句子包含169个单词。该数据集包含一个验证集和一个测试集,每个集包含1000个句子。
khPOS语料库(高棉语词性标注语料库)是一个包含12,000个句子(25,626个单词)的手动分词和词性标注的语料库,专为高棉语的自然语言处理研究和开发而设计。我们从包含经济、新闻、政治等多个领域的网站上收集了高棉语句子。此外,它还包含了一些学生名单和柬埔寨国家选举委员会的选民名单。整个语料库中每个句子的平均单词数为10.75。这里,一些符号如“។”(高棉符号Khan)、“៖”(高棉符号Camnuc pii kuuh)、“-”、“?”、“[”、“]”等也被计为单词。最短的句子只包含1个单词,最长的句子包含169个单词。该数据集包含一个验证集和一个测试集,每个集包含1000个句子。
提供机构:
SEACrowd



