imvladikon/nemo_corpus
收藏数据集概述
基本信息
- 名称: NEMO-Corpus - The Hebrew Named Entities and Morphology Corpus
- 语言: 希伯来语(he)
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源数据集: 扩展自其他-reuters-corpus
- 任务类别: 词元分类
- 任务ID: 命名实体识别
训练与评估配置
- 配置: nemo_corpus
- 任务: 词元分类
- 任务ID: entity_extraction
- 分割:
- 训练分割: train
- 评估分割: validation
- 测试分割: test
- 列映射:
- 词元: tokens
- 实体标签: tags
- 评估指标: seqeval
数据集内容
- 主要特征:
- 形态单元、单个词元和多个词元序列标签。
- 所有标注采用
BIOSE格式。 - 使用广泛接受的OntoNotes实体类别集。
- 文件结构:
- 主要数据文件夹为
ud和spmrl,分别对应希伯来语树库的不同版本。 - 每个
gold文件夹包含三种输入-输出变体(形态、多个词元、单个词元)的文件,针对每个树库分割(训练、开发、测试)。 nested子文件夹包含所有层次的嵌套提及。
- 主要数据文件夹为
统计数据
- 训练集: 4,937个句子,93,504个词元,127,031个形态单元,6,282个提及
- 开发集: 500个句子,8,531个词元,11,301个形态单元,499个提及
- 测试集: 706个句子,12,619个词元,16,828个形态单元,932个提及
引用信息
-
NEMO<sup>2</sup>论文: bibtex @article{10.1162/tacl_a_00404, author = {Bareket, Dan and Tsarfaty, Reut}, title = "{Neural Modeling for Named Entities and Morphology (NEMO2)}", journal = {Transactions of the Association for Computational Linguistics}, volume = {9}, pages = {909-928}, year = {2021}, month = {09}, doi = {10.1162/tacl_a_00404}, }
-
希伯来语树库: bibtex @article{sima2001building, author = {Sima’an, Khalil and Itai, Alon and Winter, Yoad and Altman, Alon and Nativ, Noa}, title = {Building a tree-bank of modern Hebrew text}, journal = {Traitement Automatique des Langues}, volume = {42}, number = {2}, pages = {247--380}, year = {2001}, }
-
UD版本的希伯来语树库: bibtex @inproceedings{sade-etal-2018-hebrew, author = {Sade, Shoval and Seker, Amit and Tsarfaty, Reut}, title = {The Hebrew Universal Dependency Treebank: Past Present and Future}, booktitle = {Proceedings of the Second Workshop on Universal Dependencies (UDW 2018)}, year = {2018}, pages = {133--143}, }



