imvladikon/bmc

Name: imvladikon/bmc
Creator: imvladikon
Published: 2022-11-17 16:52:43
License: 暂无描述

Hugging Face2022-11-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/imvladikon/bmc

下载链接

链接失效反馈

官方服务：

资源简介：

Ben-Mordecai和Elhadad希伯来语命名实体识别（NER）语料库（BMC）是一个用于命名实体识别任务的希伯来语单语数据集。数据集通过众包方式创建，来源于扩展的Reuters语料库，大小在10K到100K之间。数据集提供了三个75%-25%的随机分割，用于评估性能。数据集中只保留了7个实体类别（DATE, LOC, MONEY, ORG, PER, PERCENT, TIME），并过滤掉了所有MISC实体。序列标签方案从IOB更改为BIOES。开发集是从75%中取出的10%。

提供机构：

imvladikon

原始信息汇总

数据集概述

数据集名称: Ben-Mordecai and Elhadad Hebrew NER Corpus (BMC)
语言: 希伯来语 (he)
许可证: 其他
多语言性: 单语
大小: 10K<n<100K
来源数据集: 扩展自其他-reuters-corpus
任务类别: 词元分类
任务ID: 命名实体识别
训练-评估索引:
- 配置: bmc
- 任务: 词元分类
- 任务ID: 实体提取
- 分割:
  - 训练分割: train
  - 评估分割: validation
  - 测试分割: test
- 列映射:
  - tokens: tokens
  - ner_tags: tags
- 评估指标:
  - 类型: seqeval
  - 名称: seqeval

数据集特点

分割详情:
- 提供三个75%-25%的随机分割。
- 仅保留7个可评估的实体类别（DATE, LOC, MONEY, ORG, PER, PERCENT, TIME），过滤掉所有MISC实体。
- 序列标签方案从IOB改为BIOES。
- 开发集是从75%中提取的10%。

引用信息

原始论文:
- 作者: Ben-Mordecai, Naama
- 标题: Hebrew Named Entity Recognition
- 年份: 2005
- 机构: 本-古里安大学计算机科学系
分割描述论文:
- 作者: Bareket, Dan and Tsarfaty, Reut
- 标题: Neural Modeling for Named Entities and Morphology (NEMO^2)
- 年份: 2020

5,000+

优质数据集

54 个

任务类型

进入经典数据集