five

NEMO-Corpus (NEMO Hebrew NER and Morphology Corpus)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/NEMO-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
希伯来树库(国土报)语料库的命名实体 (NER) 注释,包括:语素和令牌级别 NER 标签、嵌套提及等。 我们在 TACL 论文“命名实体和形态学 (NEMO^2) 的神经建模 (NEMO^2)”[1] 中发布了 NEMO 语料库,我们在广泛的实验和分析中使用它,展示了形态学边界对于 NER 神经建模在形态学上的重要性丰富的语言。这些模型和实验的代码可以在 NEMO 代码库中找到。 主要特点: 语素、单标记和多标记序列标签。词素标签提供准确的边界,token-multi 提供部分子词形态但没有准确的边界,token-single 仅提供 token 级别的信息。 所有注释均采用 BIOSE 格式(B=Begin,I=Inside,O=Outside,S=Singleton,E=End)。 广泛使用的 OntoNotes 实体类别集:GPE(地缘政治实体)、PER(人)、LOC(位置)、ORG(组织)、FAC(设施)、EVE(事件)、WOA(艺术品)、 ANG(语言),DUC(产品)。 NEMO 包括希伯来树库的两个主要版本 UD(通用依赖)和 SPMRL 的 NER 注释。这些可以使用 bclm 与树库的其他形态句法信息层对齐 我们提供嵌套提及。 NEMO^2 论文中只使用了第一层,也是最宽的层。我们邀请您接受这个挑战! 此处提供了用于注释的指南。 语料库由两位以希伯来语为母语的学术教育人士注释,并由项目经理策划。我们还提供注释者所做的原始注释,以促进有分歧的学习工作。 使用 WebAnno(版本 3.4.5)执行注释 基本语料库统计 火车 开发者 测试 句子 4,937 500 706 代币 93,504 8,531 12,619 语素 127,031 11,301 16,828 所有提及 6,282 499 932 类型:人         (PER) 2,128 193 267 类型:组织 (ORG) 2,043 119 408 类型:地缘政治(GPE) 1,377 121 195 类型:位置       (LOC) 331 28 41 类型:设施       (FAC) 163 12 11 类型:艺术作品    (WOA) 114 9 6 类型:事件          (EVE) 57 12 0 类型:产品        (DUC) 36 2 3 类型:语言       (ANG) 33 3 1 评估 NEMO 代码存储库中提供了评估脚本以及评估说明。 引文 @article{10.1162/tacl_a_00404, 作者 = {Bareket, Dan and Tsarfaty, Reut}, title = "{命名实体和形态学的神经建模 (NEMO2)}", 期刊 = {计算语言学协会的交易}, 音量 = {9}, 页数 = {909-928}, 年 = {2021}, 月 = {09}, abstract = "{命名实体识别 (NER) 是一项基本的 NLP 任务,通常表述为对一系列标记进行分类。形态丰富的语言 (MRL) 对这一基本表述提出了挑战,因为命名实体的边界不一定重合相反,它们尊重形态边界。为了解决 MRL 中的 NER,我们需要回答两个基本问题,即要标记的基本单元是什么,以及如何在现实环境中检测和分类这些单元(即,其中没有黄金形态可用)。我们在一个新的 NER 基准上对这些问题进行了实证研究,该基准具有并行的标记级和词素级 NER 注释,我们为现代希伯来语开发了这些注释,这是一种形态丰富且模棱两可的语言。我们的结果表明对形态边界进行显式建模可以提高 NER 性能,以及一种新颖的混合架构,其中 NER 先于并修剪形态分解位置,大大优于标准管道,其中形态分解严格先于 NER,为希伯来语 NER 和希伯来语形态分解任务设置了新的性能标准。}", issn = {2307-387X}, doi = {10.1162/tacl_a_00404}, 网址 = {https://doi.org/10.1162/tacl\_a\_00404}, eprint = {https://direct.mit.edu/tacl/article-pdf/doi/10.1162/tacl\_a\_00404/1962472/tacl\_a\_00404.pdf}, }
提供机构:
OpenDataLab
创建时间:
2022-06-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作