seanghay/khPOS

Name: seanghay/khPOS
Creator: seanghay
Published: 2023-05-08 07:58:27
License: 暂无描述

Hugging Face2023-05-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/seanghay/khPOS

下载链接

链接失效反馈

官方服务：

资源简介：

khPOS数据集是一个用于高棉语（Khmer）自然语言处理研究和开发的手动分词和词性标注的语料库。数据集包含12,000个句子，共计25,626个单词，涵盖了经济、新闻、政治等多个领域的文本。数据集的平均句子长度为10.75个单词，最短句子仅包含1个单词，最长句子包含169个单词。数据集还包含了高棉语中的符号和标点符号，这些符号也被视为单词。

提供机构：

seanghay

原始信息汇总

数据集概述

基本信息

许可证: Creative Commons Attribution-NonCommercial-Share Alike 4.0 International (CC BY-NC-SA 4.0)
数据集名称: Khmer Part-of-Speech Corpus for Khmer NLP Research and Developments
语言: Khmer (km)
任务类别: 文本分类, 文本生成
数据集大小: 10K<n<100K

数据集内容

特征

id: 字符串类型
tokens: 字符串序列
pos_tags: 字符串序列，包含以下类别标签：
- AB, AUX, CC, CD, DBL, DT, ETC, IN, JJ, KAN, M, NN, PA, PN, PRO, QT, RB, RPN, SYM, UH, VB, VB_JJ, VCOM

分割

train: 包含12000个样本，数据大小为3569524字节

下载信息

下载大小: 2372205字节
数据集大小: 3569524字节

数据集详情

POS标签定义

AB: 缩写
AUX: 助动词
CC: 连词
CD: 基数词
DBL: 双符号
DT: 限定词代词
ETC: 等等
IN: 介词
JJ: 形容词
KAN: 句号
M: 量词
NN: 名词
PA: 粒子
PN: 专有名词
PRO: 代词
QT: 疑问词
RB: 副词
RPN: 关系代词
SYM: 符号
UH: 感叹词
VB: 动词
VB_JJ: 形容词原形为动词
VCOM: 动词补语

文件/脚本

最新版本: Corpus-draft-ver-1.0/
脚本:
- mk-wordtag.pl: Perl脚本，用于打印仅包含单词的文件、仅包含标签的文件、列出复合词等。
- mk-pair.pl: Perl脚本，用于将单词文件和标签文件合并为单词/标签格式。
数据: data/
模型:
- Two-Hours/: 增量训练模型，使用khPOS语料库，从2000到12000个句子。
- 3gHMM/: 增量训练模型，使用3-gram HMM模型，使用khPOS语料库，从2000到12000个句子。
- crf/: 增量训练模型，使用CRF POS标记模型，使用khPOS语料库，从2000到12000个句子。
- kytea/: 增量训练模型，使用L2正则化SVM模型，使用khPOS语料库，从2000到12000个句子。
- maxent/: 增量训练模型，使用最大熵模型，使用khPOS语料库，从2000到12000个句子。
- rdr/: 增量训练模型，使用RDR（波纹下规则）模型，使用khPOS语料库，从2000到12000个句子。

搜集汇总

数据集介绍

构建方式

该数据集通过人工标注的方式构建，包含12,000个句子，约25,626个单词。句子来源于网站、学生名单、选民名单等多个领域，平均每个句子的单词数为10.75。在构建过程中，特别注意到柬埔寨语中不使用空格分隔单词，因此采用了四种类型的单词分片方式来适应这一特点。

特点

数据集的主要特点包括：涵盖了多种领域的文本，如经济、新闻、政治等；包含学生名单和选民名单等特殊领域数据；平均句子长度适中，便于处理；人工标注确保了较高的标注质量。此外，数据集还提供了丰富的标注信息，包括单词、词性标签等。

使用方法

使用该数据集时，用户可以通过下载提供的预训练模型进行文本分类或文本生成任务。数据集的使用不受限制，用户可以根据需要自行选择适合的工具和框架来加载和使用数据集。详细的安装和使用说明可在数据集的GitHub页面找到。

背景与挑战

背景概述

seanghay/khPOS数据集是一个针对柬埔寨语（Khmer）的自然语言处理研究和发展的人工标注语料库。该数据集包含了12000个句子，经过人工分词和词性标注，旨在为柬埔寨语的词性标注任务提供支持。seanghay/khPOS数据集的创建始于2017年，主要研究人员包括Ye Kyaw Thu和Vichet Chea等，他们对数据集的构建做出了重要贡献。该数据集的发布对于柬埔寨语的NLP研究具有重要的推动作用，填补了该领域的数据空白。

当前挑战

在构建seanghay/khPOS数据集的过程中，研究人员面临了多项挑战。首先，柬埔寨语中的词汇通常不由空格分隔，而是通过特定的符号或上下文来标识，这对自动分词提出了挑战。其次，柬埔寨语的词性标注尚无统一标准，不同研究者在定义词性类别时存在差异，这增加了标注的一致性和准确性的难度。此外，构建过程中还需解决如何有效结合手动标注与自动化处理的问题，以及如何确保数据集的质量和可靠性。

常用场景

经典使用场景

seanghay/khPOS 数据集是专为柬埔寨语自然语言处理研究而开发的。其经典使用场景主要包括对柬埔寨语文本进行词性标注，以辅助进一步的文本分析和处理，如情感分析、主题建模等。该数据集提供了丰富的词性标记，能够满足不同研究需求的细粒度文本分析。

解决学术问题

该数据集解决了柬埔寨语自然语言处理中缺乏标注数据的问题，为研究者提供了标准化的词性标注参考，有助于推动柬埔寨语语法分析、机器翻译、语音识别等领域的学术研究。

衍生相关工作

基于seanghay/khPOS 数据集，研究者已经衍生出了一系列相关工作，包括但不限于词性标注方法的比较研究、条件随机场在柬埔寨语词性标注中的应用研究等，这些工作进一步推动了柬埔寨语自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集