five

imvladikon/bmc

收藏
Hugging Face2022-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/imvladikon/bmc
下载链接
链接失效反馈
官方服务:
资源简介:
Ben-Mordecai和Elhadad希伯来语命名实体识别(NER)语料库(BMC)是一个用于命名实体识别任务的希伯来语单语数据集。数据集通过众包方式创建,来源于扩展的Reuters语料库,大小在10K到100K之间。数据集提供了三个75%-25%的随机分割,用于评估性能。数据集中只保留了7个实体类别(DATE, LOC, MONEY, ORG, PER, PERCENT, TIME),并过滤掉了所有MISC实体。序列标签方案从IOB更改为BIOES。开发集是从75%中取出的10%。
提供机构:
imvladikon
原始信息汇总

数据集概述

  • 数据集名称: Ben-Mordecai and Elhadad Hebrew NER Corpus (BMC)
  • 语言: 希伯来语 (he)
  • 许可证: 其他
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 来源数据集: 扩展自其他-reuters-corpus
  • 任务类别: 词元分类
  • 任务ID: 命名实体识别
  • 训练-评估索引:
    • 配置: bmc
    • 任务: 词元分类
    • 任务ID: 实体提取
    • 分割:
      • 训练分割: train
      • 评估分割: validation
      • 测试分割: test
    • 列映射:
      • tokens: tokens
      • ner_tags: tags
    • 评估指标:
      • 类型: seqeval
      • 名称: seqeval

数据集特点

  • 分割详情:
    • 提供三个75%-25%的随机分割。
    • 仅保留7个可评估的实体类别(DATE, LOC, MONEY, ORG, PER, PERCENT, TIME),过滤掉所有MISC实体。
    • 序列标签方案从IOB改为BIOES。
    • 开发集是从75%中提取的10%。

引用信息

  • 原始论文:

    • 作者: Ben-Mordecai, Naama
    • 标题: Hebrew Named Entity Recognition
    • 年份: 2005
    • 机构: 本-古里安大学计算机科学系
  • 分割描述论文:

    • 作者: Bareket, Dan and Tsarfaty, Reut
    • 标题: Neural Modeling for Named Entities and Morphology (NEMO^2)
    • 年份: 2020
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作