Khedesh/ArmanNER
收藏Hugging Face2022-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Khedesh/ArmanNER
下载链接
链接失效反馈官方服务:
资源简介:
PersianNER数据集中的ArmanPersoNERCorpus是第一个手动标注的波斯语命名实体(NE)数据集,专门用于学术研究。数据集包含250,015个标记和7,682个波斯语句子,分为3个折叠,用于训练和测试。每个文件每行包含一个标记及其手动标注的命名实体标签,句子之间用换行符分隔。NER标签采用IOB格式。命名实体被分为六类:人物、组织、地点、设施、产品和事件,其余标记归为其他类别。
提供机构:
Khedesh
原始信息汇总
PersianNER
数据集概述
- 名称: ArmanPersoNERCorpus
- 描述: 这是第一个手动标注的波斯语命名实体识别(NE)数据集(ISLRN 399-379-640-828-6)。仅用于学术研究。
数据集详情
- 规模: 包含250,015个词和7,682个波斯语句子。
- 格式: 数据集分为3折,用于轮流作为训练和测试集。每个文件每行包含一个词及其手动标注的命名实体标签,句子之间用空行分隔。命名实体标签采用IOB格式。
- 类别: 命名实体分为六类:
- 人
- 组织(如银行、部委、大使馆、团队、国籍、网络和出版商)
- 地点(如城市、村庄、河流、海洋、海湾、沙漠和山脉)
- 设施(如学校、大学、研究中心、机场、铁路、桥梁、道路、港口、车站、医院、公园、动物园和电影院)
- 产品(如书籍、报纸、电视节目、电影、飞机、船只、汽车、理论、法律、协议和宗教)
- 事件(如战争、地震、国家假日、节日和会议)
- 其他(剩余的词)



