five

xap/everest-ner

收藏
Hugging Face2024-04-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/xap/everest-ner
下载链接
链接失效反馈
官方服务:
资源简介:
EverestNER是针对尼泊尔语的最大的人工标注命名实体识别数据集,包含人名、地点、组织、事件和日期五种实体类型。数据集分为训练集和测试集,共有24,587个实体,308,353个标记,对应15,798个句子。通过清晰的标注指南确保了高质量的标注,并首次应用BERT模型于尼泊尔语的命名实体挖掘。

EverestNER是针对尼泊尔语的最大的人工标注命名实体识别数据集,包含人名、地点、组织、事件和日期五种实体类型。数据集分为训练集和测试集,共有24,587个实体,308,353个标记,对应15,798个句子。通过清晰的标注指南确保了高质量的标注,并首次应用BERT模型于尼泊尔语的命名实体挖掘。
提供机构:
xap
原始信息汇总

数据集概述

数据集名称

EverestNER - 尼泊尔语命名实体识别基准数据集

数据集内容

  • 包含五种命名实体:人名、地点、组织、事件和日期。
  • 数据集通过明确的标注指南产生高质量的标注。
  • 包含24,587个实体,308,353个标记,对应15,798个句子。

数据集划分

  • 分为训练集(EverestNER-train)和测试集(EverestNER-test)。
  • 训练集包含847篇文章,13,848个句子,268,741个标记。
  • 测试集包含149篇文章,1,950个句子,39,612个标记。

数据格式

  • 数据集提供字符级和标记级标注。
  • 字符级标注文件:
    • 训练集:EverestNER-train-char.txt
    • 测试集:EverestNER-test-char.txt
  • 标记级标注文件:
    • 训练集:EverestNER-train-bio.txt
    • 测试集:EverestNER-test-bio.txt

性能评估

  • 最佳模型为BERT-bbmu,其在测试集上的表现如下:
    • 人名(PER):精确度0.90,召回率0.85,F1值0.88。
    • 地点(LOC):精确度0.85,召回率0.80,F1值0.82。
    • 组织(ORG):精确度0.85,召回率0.83,F1值0.84。
    • 事件(EVT):精确度0.46,召回率0.42,F1值0.44。
    • 日期(DAT):精确度0.91,召回率0.91,F1值0.91。

许可证

  • 仅供非商业用途使用。商业用途需获得作者及相关方的许可。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作