imvladikon/bmc
收藏Hugging Face2022-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/imvladikon/bmc
下载链接
链接失效反馈官方服务:
资源简介:
Ben-Mordecai和Elhadad希伯来语命名实体识别(NER)语料库(BMC)是一个用于命名实体识别任务的希伯来语单语数据集。数据集通过众包方式创建,来源于扩展的Reuters语料库,大小在10K到100K之间。数据集提供了三个75%-25%的随机分割,用于评估性能。数据集中只保留了7个实体类别(DATE, LOC, MONEY, ORG, PER, PERCENT, TIME),并过滤掉了所有MISC实体。序列标签方案从IOB更改为BIOES。开发集是从75%中取出的10%。
提供机构:
imvladikon
原始信息汇总
数据集概述
- 数据集名称: Ben-Mordecai and Elhadad Hebrew NER Corpus (BMC)
- 语言: 希伯来语 (he)
- 许可证: 其他
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源数据集: 扩展自其他-reuters-corpus
- 任务类别: 词元分类
- 任务ID: 命名实体识别
- 训练-评估索引:
- 配置: bmc
- 任务: 词元分类
- 任务ID: 实体提取
- 分割:
- 训练分割: train
- 评估分割: validation
- 测试分割: test
- 列映射:
- tokens: tokens
- ner_tags: tags
- 评估指标:
- 类型: seqeval
- 名称: seqeval
数据集特点
- 分割详情:
- 提供三个75%-25%的随机分割。
- 仅保留7个可评估的实体类别(DATE, LOC, MONEY, ORG, PER, PERCENT, TIME),过滤掉所有MISC实体。
- 序列标签方案从IOB改为BIOES。
- 开发集是从75%中提取的10%。
引用信息
-
原始论文:
- 作者: Ben-Mordecai, Naama
- 标题: Hebrew Named Entity Recognition
- 年份: 2005
- 机构: 本-古里安大学计算机科学系
-
分割描述论文:
- 作者: Bareket, Dan and Tsarfaty, Reut
- 标题: Neural Modeling for Named Entities and Morphology (NEMO^2)
- 年份: 2020



