five

seanghay/khPOS|高棉语数据集|词性标注数据集

收藏
hugging_face2023-05-08 更新2024-03-04 收录
高棉语
词性标注
下载链接:
https://hf-mirror.com/datasets/seanghay/khPOS
下载链接
链接失效反馈
资源简介:
khPOS数据集是一个用于高棉语(Khmer)自然语言处理研究和开发的手动分词和词性标注的语料库。数据集包含12,000个句子,共计25,626个单词,涵盖了经济、新闻、政治等多个领域的文本。数据集的平均句子长度为10.75个单词,最短句子仅包含1个单词,最长句子包含169个单词。数据集还包含了高棉语中的符号和标点符号,这些符号也被视为单词。

khPOS数据集是一个用于高棉语(Khmer)自然语言处理研究和开发的手动分词和词性标注的语料库。数据集包含12,000个句子,共计25,626个单词,涵盖了经济、新闻、政治等多个领域的文本。数据集的平均句子长度为10.75个单词,最短句子仅包含1个单词,最长句子包含169个单词。数据集还包含了高棉语中的符号和标点符号,这些符号也被视为单词。
提供机构:
seanghay
原始信息汇总

数据集概述

基本信息

  • 许可证: Creative Commons Attribution-NonCommercial-Share Alike 4.0 International (CC BY-NC-SA 4.0)
  • 数据集名称: Khmer Part-of-Speech Corpus for Khmer NLP Research and Developments
  • 语言: Khmer (km)
  • 任务类别: 文本分类, 文本生成
  • 数据集大小: 10K<n<100K

数据集内容

特征

  • id: 字符串类型
  • tokens: 字符串序列
  • pos_tags: 字符串序列,包含以下类别标签:
    • AB, AUX, CC, CD, DBL, DT, ETC, IN, JJ, KAN, M, NN, PA, PN, PRO, QT, RB, RPN, SYM, UH, VB, VB_JJ, VCOM

分割

  • train: 包含12000个样本,数据大小为3569524字节

下载信息

  • 下载大小: 2372205字节
  • 数据集大小: 3569524字节

数据集详情

POS标签定义

  • AB: 缩写
  • AUX: 助动词
  • CC: 连词
  • CD: 基数词
  • DBL: 双符号
  • DT: 限定词代词
  • ETC: 等等
  • IN: 介词
  • JJ: 形容词
  • KAN: 句号
  • M: 量词
  • NN: 名词
  • PA: 粒子
  • PN: 专有名词
  • PRO: 代词
  • QT: 疑问词
  • RB: 副词
  • RPN: 关系代词
  • SYM: 符号
  • UH: 感叹词
  • VB: 动词
  • VB_JJ: 形容词原形为动词
  • VCOM: 动词补语

文件/脚本

  • 最新版本: Corpus-draft-ver-1.0/
  • 脚本:
    • mk-wordtag.pl: Perl脚本,用于打印仅包含单词的文件、仅包含标签的文件、列出复合词等。
    • mk-pair.pl: Perl脚本,用于将单词文件和标签文件合并为单词/标签格式。
  • 数据: data/
  • 模型:
    • Two-Hours/: 增量训练模型,使用khPOS语料库,从2000到12000个句子。
    • 3gHMM/: 增量训练模型,使用3-gram HMM模型,使用khPOS语料库,从2000到12000个句子。
    • crf/: 增量训练模型,使用CRF POS标记模型,使用khPOS语料库,从2000到12000个句子。
    • kytea/: 增量训练模型,使用L2正则化SVM模型,使用khPOS语料库,从2000到12000个句子。
    • maxent/: 增量训练模型,使用最大熵模型,使用khPOS语料库,从2000到12000个句子。
    • rdr/: 增量训练模型,使用RDR(波纹下规则)模型,使用khPOS语料库,从2000到12000个句子。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过人工标注的方式构建,包含12,000个句子,约25,626个单词。句子来源于网站、学生名单、选民名单等多个领域,平均每个句子的单词数为10.75。在构建过程中,特别注意到柬埔寨语中不使用空格分隔单词,因此采用了四种类型的单词分片方式来适应这一特点。
特点
数据集的主要特点包括:涵盖了多种领域的文本,如经济、新闻、政治等;包含学生名单和选民名单等特殊领域数据;平均句子长度适中,便于处理;人工标注确保了较高的标注质量。此外,数据集还提供了丰富的标注信息,包括单词、词性标签等。
使用方法
使用该数据集时,用户可以通过下载提供的预训练模型进行文本分类或文本生成任务。数据集的使用不受限制,用户可以根据需要自行选择适合的工具和框架来加载和使用数据集。详细的安装和使用说明可在数据集的GitHub页面找到。
背景与挑战
背景概述
seanghay/khPOS数据集是一个针对柬埔寨语(Khmer)的自然语言处理研究和发展的人工标注语料库。该数据集包含了12000个句子,经过人工分词和词性标注,旨在为柬埔寨语的词性标注任务提供支持。seanghay/khPOS数据集的创建始于2017年,主要研究人员包括Ye Kyaw Thu和Vichet Chea等,他们对数据集的构建做出了重要贡献。该数据集的发布对于柬埔寨语的NLP研究具有重要的推动作用,填补了该领域的数据空白。
当前挑战
在构建seanghay/khPOS数据集的过程中,研究人员面临了多项挑战。首先,柬埔寨语中的词汇通常不由空格分隔,而是通过特定的符号或上下文来标识,这对自动分词提出了挑战。其次,柬埔寨语的词性标注尚无统一标准,不同研究者在定义词性类别时存在差异,这增加了标注的一致性和准确性的难度。此外,构建过程中还需解决如何有效结合手动标注与自动化处理的问题,以及如何确保数据集的质量和可靠性。
常用场景
经典使用场景
seanghay/khPOS 数据集是专为柬埔寨语自然语言处理研究而开发的。其经典使用场景主要包括对柬埔寨语文本进行词性标注,以辅助进一步的文本分析和处理,如情感分析、主题建模等。该数据集提供了丰富的词性标记,能够满足不同研究需求的细粒度文本分析。
解决学术问题
该数据集解决了柬埔寨语自然语言处理中缺乏标注数据的问题,为研究者提供了标准化的词性标注参考,有助于推动柬埔寨语语法分析、机器翻译、语音识别等领域的学术研究。
衍生相关工作
基于seanghay/khPOS 数据集,研究者已经衍生出了一系列相关工作,包括但不限于词性标注方法的比较研究、条件随机场在柬埔寨语词性标注中的应用研究等,这些工作进一步推动了柬埔寨语自然语言处理领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录