five

Thainer 泰语命名实体识别数据集

收藏
阿里云天池2026-06-08 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/88427
下载链接
链接失效反馈
官方服务:
资源简介:
ThaiNER(V1.3)是6456句命名实体识别数据集,从由Tirasaroj和Aroonmanakun(2012) 创造的2258句无名数据集中扩展而得。它用于在PyThaiNLP中学习NER标记器。

ThaiNER (v1.3) is a named entity recognition (NER) dataset containing 6,456 sentences, expanded from a 2,258-sentence unlabeled dataset originally created by Tirasaroj and Aroonmanakun (2012). It is designed for training NER taggers in the PyThaiNLP library.
提供机构:
阿里云天池
创建时间:
2021-01-16
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Thainer是一个泰语命名实体识别数据集,包含6456个句子,由2258个句子的原始数据集扩展而来。该数据集用于在PyThaiNLP中训练NER标记器,提供了id、tokens、pos_tags和ner_tags等字段,其中NER标签由人工标注,POS标签由工具自动生成。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务