wannaphong/thainer
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/wannaphong/thainer
下载链接
链接失效反馈官方服务:
资源简介:
ThaiNER(v1.3)是一个包含6,456个句子的泰语命名实体识别数据集,扩展自Tirasaroj和Aroonmanakun(2012)的2,258个句子的数据集。该数据集用于训练PyThaiNLP中的NER标注器。NER标签由Tirasaroj和Aroonmanakun(2012)和[@wannaphong](https://github.com/wannaphong/)标注,POS标签由PyThaiNLP的`perceptron`引擎生成。数据集包含句子ID、词标记、POS标签和NER标签。
ThaiNER(v1.3)是一个包含6,456个句子的泰语命名实体识别数据集,扩展自Tirasaroj和Aroonmanakun(2012)的2,258个句子的数据集。该数据集用于训练PyThaiNLP中的NER标注器。NER标签由Tirasaroj和Aroonmanakun(2012)和[@wannaphong](https://github.com/wannaphong/)标注,POS标签由PyThaiNLP的`perceptron`引擎生成。数据集包含句子ID、词标记、POS标签和NER标签。
提供机构:
wannaphong
原始信息汇总
数据集概述
数据集基本信息
- 名称: thainer
- 语言: 泰语 (th)
- 许可证: CC-BY 3.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 任务类别: 词性标注, 命名实体识别
数据集结构
- 数据实例: 包含句子ID、词条、词性标签和命名实体标签。
- 数据字段:
id: 句子ID,数据类型为int32。tokens: 词条,由PyThaiNLP的newmm分词器处理。pos_tags: 词性标签,由PyThaiNLP的perceptron引擎处理。ner_tags: 命名实体标签,由人工标注。
- 数据分割: 未明确给出分割信息。
数据集创建
- 来源数据: 原始数据包括新闻文章、公共公告和私人聊天记录(已去除敏感信息)。
- 标注过程: 前2,258句由Tirasaroj和Aroonmanakun标注,其余由@wannaphong标注。
- 个人和敏感信息: 新闻文章和公共公告不含个人和敏感信息,私人聊天记录中的敏感信息已被移除。
使用数据注意事项
- 社会影响: 用于泰语的命名实体识别。
- 偏见讨论: 数据集主要由@wannaphong处理和标注,可能反映其个人偏见。
附加信息
- 数据集维护者: Tirasaroj和Aroonmanakun(前2,258句)及@wannaphong(其余部分)。
- 许可证信息: CC-BY 3.0。
- 引用信息: 参考文献中提供了详细的引用格式。
贡献者
- 感谢@cstorm125为该数据集做出的贡献。



