five

Khedesh/ArmanNER

收藏
Hugging Face2022-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Khedesh/ArmanNER
下载链接
链接失效反馈
官方服务:
资源简介:
PersianNER数据集中的ArmanPersoNERCorpus是第一个手动标注的波斯语命名实体(NE)数据集,专门用于学术研究。数据集包含250,015个标记和7,682个波斯语句子,分为3个折叠,用于训练和测试。每个文件每行包含一个标记及其手动标注的命名实体标签,句子之间用换行符分隔。NER标签采用IOB格式。命名实体被分为六类:人物、组织、地点、设施、产品和事件,其余标记归为其他类别。
提供机构:
Khedesh
原始信息汇总

PersianNER

数据集概述

  • 名称: ArmanPersoNERCorpus
  • 描述: 这是第一个手动标注的波斯语命名实体识别(NE)数据集(ISLRN 399-379-640-828-6)。仅用于学术研究。

数据集详情

  • 规模: 包含250,015个词和7,682个波斯语句子。
  • 格式: 数据集分为3折,用于轮流作为训练和测试集。每个文件每行包含一个词及其手动标注的命名实体标签,句子之间用空行分隔。命名实体标签采用IOB格式。
  • 类别: 命名实体分为六类:
    • 组织(如银行、部委、大使馆、团队、国籍、网络和出版商)
    • 地点(如城市、村庄、河流、海洋、海湾、沙漠和山脉)
    • 设施(如学校、大学、研究中心、机场、铁路、桥梁、道路、港口、车站、医院、公园、动物园和电影院)
    • 产品(如书籍、报纸、电视节目、电影、飞机、船只、汽车、理论、法律、协议和宗教)
    • 事件(如战争、地震、国家假日、节日和会议)
    • 其他(剩余的词)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作