xap/DanfeNER
收藏Hugging Face2024-04-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/xap/DanfeNER
下载链接
链接失效反馈官方服务:
资源简介:
DanfeNER是迄今为止最大的用于尼泊尔语推文的命名实体识别(NER)数据集,包含五种命名实体:人物、地点、组织、事件和日期。数据集分为训练集(DanfeNER-train)和测试集(DanfeNER-test),并提供了字符级别和词级别的标注。数据集的基本统计信息包括推文数量、词数、平均长度以及各类实体的数量。文件中还介绍了使用不同Transformer模型进行实验的结果,并提供了最佳模型(DB-BERT)的性能评估。
DanfeNER是迄今为止最大的用于尼泊尔语推文的命名实体识别(NER)数据集,包含五种命名实体:人物、地点、组织、事件和日期。数据集分为训练集(DanfeNER-train)和测试集(DanfeNER-test),并提供了字符级别和词级别的标注。数据集的基本统计信息包括推文数量、词数、平均长度以及各类实体的数量。文件中还介绍了使用不同Transformer模型进行实验的结果,并提供了最佳模型(DB-BERT)的性能评估。
提供机构:
xap
原始信息汇总
数据集概述
数据集名称
DanfeNER - Named Entity Recognition in Nepali Tweets
数据集内容
- 包含五种命名实体:Person, Location, Organization, Event, Date
- 分为训练集(DanfeNER-train)和测试集(DanfeNER-test)
数据集统计
| 数据 | 推文数量 | 词数 | 平均长度 | LOC | ORG | PER | EVT | DAT | 总实体数 |
|---|---|---|---|---|---|---|---|---|---|
| 训练 | 5,366 | 92,425 | 17.22 | 923 | 782 | 1,061 | 34 | 663 | 3,463 |
| 测试 | 2,301 | 39,133 | 17.00 | 389 | 356 | 444 | 28 | 286 | 1,503 |
| 总计 | 7,667 | 131,558 | 17.11 | 1,312 | 1,138 | 1,505 | 62 | 949 | 4,966 |
数据格式
- 包含字符级和词级标注
- 训练集和测试集分别有对应的字符级和词级文件
模型评估
- 使用多种Transformer模型进行评估,包括NPVec1-BERT, NepaliBERT, NepBERT, DB-BERT, BERT-bbmu
- 最佳表现模型为DB-BERT,其F1分数为0.80
性能评估(DB-BERT)
| 实体类型 | 精确率 | 召回率 | F1分数 | 支持数 |
|---|---|---|---|---|
| PER | 0.81 | 0.77 | 0.79 | 444 |
| LOC | 0.83 | 0.86 | 0.84 | 389 |
| ORG | 0.79 | 0.79 | 0.79 | 356 |
| EVT | 0.53 | 0.29 | 0.37 | 28 |
| DAT | 0.78 | 0.84 | 0.81 | 286 |
许可证
- 仅限非商业用途
- 商业使用需获得作者许可



