five

wannaphong/thainer

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/wannaphong/thainer
下载链接
链接失效反馈
官方服务:
资源简介:
ThaiNER(v1.3)是一个包含6,456个句子的泰语命名实体识别数据集,扩展自Tirasaroj和Aroonmanakun(2012)的2,258个句子的数据集。该数据集用于训练PyThaiNLP中的NER标注器。NER标签由Tirasaroj和Aroonmanakun(2012)和[@wannaphong](https://github.com/wannaphong/)标注,POS标签由PyThaiNLP的`perceptron`引擎生成。数据集包含句子ID、词标记、POS标签和NER标签。

ThaiNER(v1.3)是一个包含6,456个句子的泰语命名实体识别数据集,扩展自Tirasaroj和Aroonmanakun(2012)的2,258个句子的数据集。该数据集用于训练PyThaiNLP中的NER标注器。NER标签由Tirasaroj和Aroonmanakun(2012)和[@wannaphong](https://github.com/wannaphong/)标注,POS标签由PyThaiNLP的`perceptron`引擎生成。数据集包含句子ID、词标记、POS标签和NER标签。
提供机构:
wannaphong
原始信息汇总

数据集概述

数据集基本信息

  • 名称: thainer
  • 语言: 泰语 (th)
  • 许可证: CC-BY 3.0
  • 多语言性: 单语种
  • 大小: 1K<n<10K
  • 任务类别: 词性标注, 命名实体识别

数据集结构

  • 数据实例: 包含句子ID、词条、词性标签和命名实体标签。
  • 数据字段:
    • id: 句子ID,数据类型为int32。
    • tokens: 词条,由PyThaiNLP的newmm分词器处理。
    • pos_tags: 词性标签,由PyThaiNLP的perceptron引擎处理。
    • ner_tags: 命名实体标签,由人工标注。
  • 数据分割: 未明确给出分割信息。

数据集创建

  • 来源数据: 原始数据包括新闻文章、公共公告和私人聊天记录(已去除敏感信息)。
  • 标注过程: 前2,258句由Tirasaroj和Aroonmanakun标注,其余由@wannaphong标注。
  • 个人和敏感信息: 新闻文章和公共公告不含个人和敏感信息,私人聊天记录中的敏感信息已被移除。

使用数据注意事项

  • 社会影响: 用于泰语的命名实体识别。
  • 偏见讨论: 数据集主要由@wannaphong处理和标注,可能反映其个人偏见。

附加信息

  • 数据集维护者: Tirasaroj和Aroonmanakun(前2,258句)及@wannaphong(其余部分)。
  • 许可证信息: CC-BY 3.0。
  • 引用信息: 参考文献中提供了详细的引用格式。

贡献者

  • 感谢@cstorm125为该数据集做出的贡献。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作