five

AliFartout/PEYMA-ARMAN-Mixed

收藏
Hugging Face2023-08-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AliFartout/PEYMA-ARMAN-Mixed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是PEYMA和ARMAN波斯语NER数据集的组合,包含以下命名实体标签:产品(PRO)、事件(EVE)、设施(FAC)、地点(LOC)、人物(PER)、货币(MON)、百分比(PCT)、日期(DAT)、组织(ORG)和时间(TIM)。数据集分为训练集、测试集和验证集,并提供了详细的统计数据。
提供机构:
AliFartout
原始信息汇总

混合波斯语NER数据集(PEYMA-ARMAN)

数据集概述

该数据集是PEYMAARMAN波斯语NER数据集的组合。包含以下命名实体标签:

  • Product (PRO)
  • Event (EVE)
  • Facility (FAC)
  • Location (LOC)
  • Person (PER)
  • Money (MON)
  • Percent (PCT)
  • Date (DAT)
  • Organization (ORG)
  • Time (TIM)

数据集信息

数据集分为训练集、测试集和验证集。以下是数据集统计摘要:

Split B_DAT B_EVE B_FAC B_LOC B_MON B_ORG B_PCT B_PER B_PRO B_TIM I_DAT I_EVE I_FAC I_LOC I_MON I_ORG I_PCT I_PER I_PRO I_TIM O num_rows
Train 1512 1379 1334 13040 446 15762 266 11371 1719 224 1939 4600 2222 4254 1314 21347 308 7160 1736 375 747216 26417
Test 185 218 124 1868 53 2017 27 1566 281 27 245 697 237 511 142 2843 31 1075 345 37 92214 3303
Validation 161 143 192 1539 28 2180 33 1335 172 30 217 520 349 494 54 2923 34 813 136 39 96857 3302

数据集结构

python DatasetDict({ train: Dataset({ features: [tokens, ner_tags, ner_tags_names], num_rows: 26417 }) test: Dataset({ features: [tokens, ner_tags, ner_tags_names], num_rows: 3303 }) validation: Dataset({ features: [tokens, ner_tags, ner_tags_names], num_rows: 3302 }) })

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作