five

seanghay/khPOS

收藏
Hugging Face2023-05-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seanghay/khPOS
下载链接
链接失效反馈
官方服务:
资源简介:
khPOS数据集是一个用于高棉语(Khmer)自然语言处理研究和开发的手动分词和词性标注的语料库。数据集包含12,000个句子,共计25,626个单词,涵盖了经济、新闻、政治等多个领域的文本。数据集的平均句子长度为10.75个单词,最短句子仅包含1个单词,最长句子包含169个单词。数据集还包含了高棉语中的符号和标点符号,这些符号也被视为单词。

khPOS数据集是一个用于高棉语(Khmer)自然语言处理研究和开发的手动分词和词性标注的语料库。数据集包含12,000个句子,共计25,626个单词,涵盖了经济、新闻、政治等多个领域的文本。数据集的平均句子长度为10.75个单词,最短句子仅包含1个单词,最长句子包含169个单词。数据集还包含了高棉语中的符号和标点符号,这些符号也被视为单词。
提供机构:
seanghay
原始信息汇总

数据集概述

基本信息

  • 许可证: Creative Commons Attribution-NonCommercial-Share Alike 4.0 International (CC BY-NC-SA 4.0)
  • 数据集名称: Khmer Part-of-Speech Corpus for Khmer NLP Research and Developments
  • 语言: Khmer (km)
  • 任务类别: 文本分类, 文本生成
  • 数据集大小: 10K<n<100K

数据集内容

特征

  • id: 字符串类型
  • tokens: 字符串序列
  • pos_tags: 字符串序列,包含以下类别标签:
    • AB, AUX, CC, CD, DBL, DT, ETC, IN, JJ, KAN, M, NN, PA, PN, PRO, QT, RB, RPN, SYM, UH, VB, VB_JJ, VCOM

分割

  • train: 包含12000个样本,数据大小为3569524字节

下载信息

  • 下载大小: 2372205字节
  • 数据集大小: 3569524字节

数据集详情

POS标签定义

  • AB: 缩写
  • AUX: 助动词
  • CC: 连词
  • CD: 基数词
  • DBL: 双符号
  • DT: 限定词代词
  • ETC: 等等
  • IN: 介词
  • JJ: 形容词
  • KAN: 句号
  • M: 量词
  • NN: 名词
  • PA: 粒子
  • PN: 专有名词
  • PRO: 代词
  • QT: 疑问词
  • RB: 副词
  • RPN: 关系代词
  • SYM: 符号
  • UH: 感叹词
  • VB: 动词
  • VB_JJ: 形容词原形为动词
  • VCOM: 动词补语

文件/脚本

  • 最新版本: Corpus-draft-ver-1.0/
  • 脚本:
    • mk-wordtag.pl: Perl脚本,用于打印仅包含单词的文件、仅包含标签的文件、列出复合词等。
    • mk-pair.pl: Perl脚本,用于将单词文件和标签文件合并为单词/标签格式。
  • 数据: data/
  • 模型:
    • Two-Hours/: 增量训练模型,使用khPOS语料库,从2000到12000个句子。
    • 3gHMM/: 增量训练模型,使用3-gram HMM模型,使用khPOS语料库,从2000到12000个句子。
    • crf/: 增量训练模型,使用CRF POS标记模型,使用khPOS语料库,从2000到12000个句子。
    • kytea/: 增量训练模型,使用L2正则化SVM模型,使用khPOS语料库,从2000到12000个句子。
    • maxent/: 增量训练模型,使用最大熵模型,使用khPOS语料库,从2000到12000个句子。
    • rdr/: 增量训练模型,使用RDR(波纹下规则)模型,使用khPOS语料库,从2000到12000个句子。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过人工标注的方式构建,包含12,000个句子,约25,626个单词。句子来源于网站、学生名单、选民名单等多个领域,平均每个句子的单词数为10.75。在构建过程中,特别注意到柬埔寨语中不使用空格分隔单词,因此采用了四种类型的单词分片方式来适应这一特点。
特点
数据集的主要特点包括:涵盖了多种领域的文本,如经济、新闻、政治等;包含学生名单和选民名单等特殊领域数据;平均句子长度适中,便于处理;人工标注确保了较高的标注质量。此外,数据集还提供了丰富的标注信息,包括单词、词性标签等。
使用方法
使用该数据集时,用户可以通过下载提供的预训练模型进行文本分类或文本生成任务。数据集的使用不受限制,用户可以根据需要自行选择适合的工具和框架来加载和使用数据集。详细的安装和使用说明可在数据集的GitHub页面找到。
背景与挑战
背景概述
seanghay/khPOS数据集是一个针对柬埔寨语(Khmer)的自然语言处理研究和发展的人工标注语料库。该数据集包含了12000个句子,经过人工分词和词性标注,旨在为柬埔寨语的词性标注任务提供支持。seanghay/khPOS数据集的创建始于2017年,主要研究人员包括Ye Kyaw Thu和Vichet Chea等,他们对数据集的构建做出了重要贡献。该数据集的发布对于柬埔寨语的NLP研究具有重要的推动作用,填补了该领域的数据空白。
当前挑战
在构建seanghay/khPOS数据集的过程中,研究人员面临了多项挑战。首先,柬埔寨语中的词汇通常不由空格分隔,而是通过特定的符号或上下文来标识,这对自动分词提出了挑战。其次,柬埔寨语的词性标注尚无统一标准,不同研究者在定义词性类别时存在差异,这增加了标注的一致性和准确性的难度。此外,构建过程中还需解决如何有效结合手动标注与自动化处理的问题,以及如何确保数据集的质量和可靠性。
常用场景
经典使用场景
seanghay/khPOS 数据集是专为柬埔寨语自然语言处理研究而开发的。其经典使用场景主要包括对柬埔寨语文本进行词性标注,以辅助进一步的文本分析和处理,如情感分析、主题建模等。该数据集提供了丰富的词性标记,能够满足不同研究需求的细粒度文本分析。
解决学术问题
该数据集解决了柬埔寨语自然语言处理中缺乏标注数据的问题,为研究者提供了标准化的词性标注参考,有助于推动柬埔寨语语法分析、机器翻译、语音识别等领域的学术研究。
衍生相关工作
基于seanghay/khPOS 数据集,研究者已经衍生出了一系列相关工作,包括但不限于词性标注方法的比较研究、条件随机场在柬埔寨语词性标注中的应用研究等,这些工作进一步推动了柬埔寨语自然语言处理领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作