five

imvladikon/nemo_corpus

收藏
Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/imvladikon/nemo_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
NEMO-Corpus是一个希伯来语命名实体和形态学语料库,包含希伯来树库(Haaretz报纸语料库)的命名实体识别(NER)标注,涵盖词素和词级别的NER标签、嵌套提及等。该语料库在TACL论文《Neural Modeling for Named Entities and Morphology (NEMO²)》中发布,用于展示形态学边界在形态丰富语言中的NER建模中的重要性。语料库提供了多种配置和标签格式,包括扁平标签、嵌套标签、带有形态预分割标记的扁平标签和嵌套标签。所有标注均采用BIOSE格式,并包含广泛使用的OntoNotes实体类别集。语料库的标注由两名具有学术背景的母语希伯来语者完成,并使用WebAnno工具进行标注。
提供机构:
imvladikon
原始信息汇总

数据集概述

基本信息

  • 名称: NEMO-Corpus - The Hebrew Named Entities and Morphology Corpus
  • 语言: 希伯来语(he)
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 来源数据集: 扩展自其他-reuters-corpus
  • 任务类别: 词元分类
  • 任务ID: 命名实体识别

训练与评估配置

  • 配置: nemo_corpus
  • 任务: 词元分类
  • 任务ID: entity_extraction
  • 分割:
    • 训练分割: train
    • 评估分割: validation
    • 测试分割: test
  • 列映射:
    • 词元: tokens
    • 实体标签: tags
  • 评估指标: seqeval

数据集内容

  • 主要特征:
    1. 形态单元、单个词元和多个词元序列标签。
    2. 所有标注采用BIOSE格式。
    3. 使用广泛接受的OntoNotes实体类别集。
  • 文件结构:
    • 主要数据文件夹为udspmrl,分别对应希伯来语树库的不同版本。
    • 每个gold文件夹包含三种输入-输出变体(形态、多个词元、单个词元)的文件,针对每个树库分割(训练、开发、测试)。
    • nested子文件夹包含所有层次的嵌套提及。

统计数据

  • 训练集: 4,937个句子,93,504个词元,127,031个形态单元,6,282个提及
  • 开发集: 500个句子,8,531个词元,11,301个形态单元,499个提及
  • 测试集: 706个句子,12,619个词元,16,828个形态单元,932个提及

引用信息

  • NEMO<sup>2</sup>论文: bibtex @article{10.1162/tacl_a_00404, author = {Bareket, Dan and Tsarfaty, Reut}, title = "{Neural Modeling for Named Entities and Morphology (NEMO2)}", journal = {Transactions of the Association for Computational Linguistics}, volume = {9}, pages = {909-928}, year = {2021}, month = {09}, doi = {10.1162/tacl_a_00404}, }

  • 希伯来语树库: bibtex @article{sima2001building, author = {Sima’an, Khalil and Itai, Alon and Winter, Yoad and Altman, Alon and Nativ, Noa}, title = {Building a tree-bank of modern Hebrew text}, journal = {Traitement Automatique des Langues}, volume = {42}, number = {2}, pages = {247--380}, year = {2001}, }

  • UD版本的希伯来语树库: bibtex @inproceedings{sade-etal-2018-hebrew, author = {Sade, Shoval and Seker, Amit and Tsarfaty, Reut}, title = {The Hebrew Universal Dependency Treebank: Past Present and Future}, booktitle = {Proceedings of the Second Workshop on Universal Dependencies (UDW 2018)}, year = {2018}, pages = {133--143}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作