seanghay/khPOS
收藏Hugging Face2023-05-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seanghay/khPOS
下载链接
链接失效反馈官方服务:
资源简介:
khPOS数据集是一个用于高棉语(Khmer)自然语言处理研究和开发的手动分词和词性标注的语料库。数据集包含12,000个句子,共计25,626个单词,涵盖了经济、新闻、政治等多个领域的文本。数据集的平均句子长度为10.75个单词,最短句子仅包含1个单词,最长句子包含169个单词。数据集还包含了高棉语中的符号和标点符号,这些符号也被视为单词。
khPOS数据集是一个用于高棉语(Khmer)自然语言处理研究和开发的手动分词和词性标注的语料库。数据集包含12,000个句子,共计25,626个单词,涵盖了经济、新闻、政治等多个领域的文本。数据集的平均句子长度为10.75个单词,最短句子仅包含1个单词,最长句子包含169个单词。数据集还包含了高棉语中的符号和标点符号,这些符号也被视为单词。
提供机构:
seanghay
原始信息汇总
数据集概述
基本信息
- 许可证: Creative Commons Attribution-NonCommercial-Share Alike 4.0 International (CC BY-NC-SA 4.0)
- 数据集名称: Khmer Part-of-Speech Corpus for Khmer NLP Research and Developments
- 语言: Khmer (km)
- 任务类别: 文本分类, 文本生成
- 数据集大小: 10K<n<100K
数据集内容
特征
- id: 字符串类型
- tokens: 字符串序列
- pos_tags: 字符串序列,包含以下类别标签:
- AB, AUX, CC, CD, DBL, DT, ETC, IN, JJ, KAN, M, NN, PA, PN, PRO, QT, RB, RPN, SYM, UH, VB, VB_JJ, VCOM
分割
- train: 包含12000个样本,数据大小为3569524字节
下载信息
- 下载大小: 2372205字节
- 数据集大小: 3569524字节
数据集详情
POS标签定义
- AB: 缩写
- AUX: 助动词
- CC: 连词
- CD: 基数词
- DBL: 双符号
- DT: 限定词代词
- ETC: 等等
- IN: 介词
- JJ: 形容词
- KAN: 句号
- M: 量词
- NN: 名词
- PA: 粒子
- PN: 专有名词
- PRO: 代词
- QT: 疑问词
- RB: 副词
- RPN: 关系代词
- SYM: 符号
- UH: 感叹词
- VB: 动词
- VB_JJ: 形容词原形为动词
- VCOM: 动词补语
文件/脚本
- 最新版本: Corpus-draft-ver-1.0/
- 脚本:
- mk-wordtag.pl: Perl脚本,用于打印仅包含单词的文件、仅包含标签的文件、列出复合词等。
- mk-pair.pl: Perl脚本,用于将单词文件和标签文件合并为单词/标签格式。
- 数据: data/
- 模型:
- Two-Hours/: 增量训练模型,使用khPOS语料库,从2000到12000个句子。
- 3gHMM/: 增量训练模型,使用3-gram HMM模型,使用khPOS语料库,从2000到12000个句子。
- crf/: 增量训练模型,使用CRF POS标记模型,使用khPOS语料库,从2000到12000个句子。
- kytea/: 增量训练模型,使用L2正则化SVM模型,使用khPOS语料库,从2000到12000个句子。
- maxent/: 增量训练模型,使用最大熵模型,使用khPOS语料库,从2000到12000个句子。
- rdr/: 增量训练模型,使用RDR(波纹下规则)模型,使用khPOS语料库,从2000到12000个句子。
搜集汇总
数据集介绍

构建方式
该数据集通过人工标注的方式构建,包含12,000个句子,约25,626个单词。句子来源于网站、学生名单、选民名单等多个领域,平均每个句子的单词数为10.75。在构建过程中,特别注意到柬埔寨语中不使用空格分隔单词,因此采用了四种类型的单词分片方式来适应这一特点。
特点
数据集的主要特点包括:涵盖了多种领域的文本,如经济、新闻、政治等;包含学生名单和选民名单等特殊领域数据;平均句子长度适中,便于处理;人工标注确保了较高的标注质量。此外,数据集还提供了丰富的标注信息,包括单词、词性标签等。
使用方法
使用该数据集时,用户可以通过下载提供的预训练模型进行文本分类或文本生成任务。数据集的使用不受限制,用户可以根据需要自行选择适合的工具和框架来加载和使用数据集。详细的安装和使用说明可在数据集的GitHub页面找到。
背景与挑战
背景概述
seanghay/khPOS数据集是一个针对柬埔寨语(Khmer)的自然语言处理研究和发展的人工标注语料库。该数据集包含了12000个句子,经过人工分词和词性标注,旨在为柬埔寨语的词性标注任务提供支持。seanghay/khPOS数据集的创建始于2017年,主要研究人员包括Ye Kyaw Thu和Vichet Chea等,他们对数据集的构建做出了重要贡献。该数据集的发布对于柬埔寨语的NLP研究具有重要的推动作用,填补了该领域的数据空白。
当前挑战
在构建seanghay/khPOS数据集的过程中,研究人员面临了多项挑战。首先,柬埔寨语中的词汇通常不由空格分隔,而是通过特定的符号或上下文来标识,这对自动分词提出了挑战。其次,柬埔寨语的词性标注尚无统一标准,不同研究者在定义词性类别时存在差异,这增加了标注的一致性和准确性的难度。此外,构建过程中还需解决如何有效结合手动标注与自动化处理的问题,以及如何确保数据集的质量和可靠性。
常用场景
经典使用场景
seanghay/khPOS 数据集是专为柬埔寨语自然语言处理研究而开发的。其经典使用场景主要包括对柬埔寨语文本进行词性标注,以辅助进一步的文本分析和处理,如情感分析、主题建模等。该数据集提供了丰富的词性标记,能够满足不同研究需求的细粒度文本分析。
解决学术问题
该数据集解决了柬埔寨语自然语言处理中缺乏标注数据的问题,为研究者提供了标准化的词性标注参考,有助于推动柬埔寨语语法分析、机器翻译、语音识别等领域的学术研究。
衍生相关工作
基于seanghay/khPOS 数据集,研究者已经衍生出了一系列相关工作,包括但不限于词性标注方法的比较研究、条件随机场在柬埔寨语词性标注中的应用研究等,这些工作进一步推动了柬埔寨语自然语言处理领域的发展。
以上内容由遇见数据集搜集并总结生成



