xap/everest-ner
收藏Hugging Face2024-04-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/xap/everest-ner
下载链接
链接失效反馈官方服务:
资源简介:
EverestNER是针对尼泊尔语的最大的人工标注命名实体识别数据集,包含人名、地点、组织、事件和日期五种实体类型。数据集分为训练集和测试集,共有24,587个实体,308,353个标记,对应15,798个句子。通过清晰的标注指南确保了高质量的标注,并首次应用BERT模型于尼泊尔语的命名实体挖掘。
EverestNER是针对尼泊尔语的最大的人工标注命名实体识别数据集,包含人名、地点、组织、事件和日期五种实体类型。数据集分为训练集和测试集,共有24,587个实体,308,353个标记,对应15,798个句子。通过清晰的标注指南确保了高质量的标注,并首次应用BERT模型于尼泊尔语的命名实体挖掘。
提供机构:
xap
原始信息汇总
数据集概述
数据集名称
EverestNER - 尼泊尔语命名实体识别基准数据集
数据集内容
- 包含五种命名实体:人名、地点、组织、事件和日期。
- 数据集通过明确的标注指南产生高质量的标注。
- 包含24,587个实体,308,353个标记,对应15,798个句子。
数据集划分
- 分为训练集(EverestNER-train)和测试集(EverestNER-test)。
- 训练集包含847篇文章,13,848个句子,268,741个标记。
- 测试集包含149篇文章,1,950个句子,39,612个标记。
数据格式
- 数据集提供字符级和标记级标注。
- 字符级标注文件:
- 训练集:EverestNER-train-char.txt
- 测试集:EverestNER-test-char.txt
- 标记级标注文件:
- 训练集:EverestNER-train-bio.txt
- 测试集:EverestNER-test-bio.txt
性能评估
- 最佳模型为BERT-bbmu,其在测试集上的表现如下:
- 人名(PER):精确度0.90,召回率0.85,F1值0.88。
- 地点(LOC):精确度0.85,召回率0.80,F1值0.82。
- 组织(ORG):精确度0.85,召回率0.83,F1值0.84。
- 事件(EVT):精确度0.46,召回率0.42,F1值0.44。
- 日期(DAT):精确度0.91,召回率0.91,F1值0.91。
许可证
- 仅供非商业用途使用。商业用途需获得作者及相关方的许可。



