AliFartout/PEYMA-ARMAN-Mixed
收藏Hugging Face2023-08-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AliFartout/PEYMA-ARMAN-Mixed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是PEYMA和ARMAN波斯语NER数据集的组合,包含以下命名实体标签:产品(PRO)、事件(EVE)、设施(FAC)、地点(LOC)、人物(PER)、货币(MON)、百分比(PCT)、日期(DAT)、组织(ORG)和时间(TIM)。数据集分为训练集、测试集和验证集,并提供了详细的统计数据。
提供机构:
AliFartout
原始信息汇总
混合波斯语NER数据集(PEYMA-ARMAN)
数据集概述
该数据集是PEYMA和ARMAN波斯语NER数据集的组合。包含以下命名实体标签:
- Product (PRO)
- Event (EVE)
- Facility (FAC)
- Location (LOC)
- Person (PER)
- Money (MON)
- Percent (PCT)
- Date (DAT)
- Organization (ORG)
- Time (TIM)
数据集信息
数据集分为训练集、测试集和验证集。以下是数据集统计摘要:
| Split | B_DAT | B_EVE | B_FAC | B_LOC | B_MON | B_ORG | B_PCT | B_PER | B_PRO | B_TIM | I_DAT | I_EVE | I_FAC | I_LOC | I_MON | I_ORG | I_PCT | I_PER | I_PRO | I_TIM | O | num_rows |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Train | 1512 | 1379 | 1334 | 13040 | 446 | 15762 | 266 | 11371 | 1719 | 224 | 1939 | 4600 | 2222 | 4254 | 1314 | 21347 | 308 | 7160 | 1736 | 375 | 747216 | 26417 |
| Test | 185 | 218 | 124 | 1868 | 53 | 2017 | 27 | 1566 | 281 | 27 | 245 | 697 | 237 | 511 | 142 | 2843 | 31 | 1075 | 345 | 37 | 92214 | 3303 |
| Validation | 161 | 143 | 192 | 1539 | 28 | 2180 | 33 | 1335 | 172 | 30 | 217 | 520 | 349 | 494 | 54 | 2923 | 34 | 813 | 136 | 39 | 96857 | 3302 |
数据集结构
python DatasetDict({ train: Dataset({ features: [tokens, ner_tags, ner_tags_names], num_rows: 26417 }) test: Dataset({ features: [tokens, ner_tags, ner_tags_names], num_rows: 3303 }) validation: Dataset({ features: [tokens, ner_tags, ner_tags_names], num_rows: 3302 }) })



