NEREL-BIO
收藏arXiv2022-10-21 更新2024-06-21 收录
下载链接:
https://github.com/nerel-ds/NEREL-BIO
下载链接
链接失效反馈官方服务:
资源简介:
NEREL-BIO是一个专为生物医学领域设计的俄语和英语医学摘要数据集,由莫斯科国立大学等多个研究机构共同创建。该数据集包含超过700篇俄语和100篇英语的医学摘要,特别关注于疾病和相关医疗程序的描述。数据集的创建旨在解决生物医学文本中复杂实体识别的挑战,尤其是嵌套实体的识别。NEREL-BIO不仅支持跨领域和跨语言的研究,还通过提供详细的实体和关系标注,促进了生物医学信息提取技术的发展。
NEREL-BIO is a Russian and English medical abstract dataset tailored for the biomedical domain, jointly created by multiple research institutions including Lomonosov Moscow State University. This dataset includes over 700 Russian and 100 English medical abstracts, with a particular focus on descriptions of diseases and related medical procedures. The dataset was developed to address the challenges of complex entity recognition in biomedical texts, especially the recognition of nested entities. NEREL-BIO not only supports cross-domain and cross-lingual research, but also promotes the development of biomedical information extraction technologies by providing detailed entity and relation annotations.
提供机构:
莫斯科国立大学
创建时间:
2022-10-21
搜集汇总
数据集介绍

构建方式
在生物医学信息抽取领域,NEREL-BIO数据集的构建体现了对嵌套命名实体标注的深度探索。该数据集以WMT-2020生物医学翻译任务中的俄语PubMed摘要为基础,并辅以少量英语平行摘要。构建过程首先通过基于mBERT的命名实体识别模型进行零样本预测,初步筛选出实体密集且类型多样的文档。随后,利用BRAT标注工具,结合预训练的机器阅读理解模型与序列模型提供的自动标注结果,由具备术语学背景的专家进行多轮人工标注与审核。标注方案不仅涵盖了29个通用领域实体类型,还引入了17个生物医学专用实体类型,并严格遵循UMLS分类体系,确保嵌套结构(最深可达六层)的完整性与一致性。
特点
NEREL-BIO的显著特点在于其专注于生物医学文本中的嵌套实体结构,这为复杂概念的表达提供了精细的标注框架。数据集包含超过700篇俄语摘要和100余篇英语平行摘要,实体标注数量庞大,且嵌套实体比例较高,例如疾病与解剖结构实体常形成多层嵌套。其标注体系融合了通用与生物医学领域实体,支持跨领域与跨语言迁移实验。此外,数据集中实体常以大小写混合形式出现,并注重与UMLS知识库的链接,即便长实体未在UMLS中直接收录,其内部子实体仍可对应标准化概念,增强了实体链接的覆盖能力。
使用方法
NEREL-BIO适用于训练与评估嵌套命名实体识别模型,尤其利于探索跨语言与跨领域迁移学习。研究人员可将数据集按标准划分(训练/开发/测试集)用于模型训练,并利用其提供的嵌套标注研究层次化实体检测方法。数据集中俄语与英语平行文本可用于双语或多语言模型构建,验证语言迁移效果。同时,其与通用领域数据集NEREL共享标注体系,便于设计领域适应实验,考察从通用到生物医学文本的模型泛化性能。数据集的嵌套结构也为关系抽取与知识图谱构建提供了更丰富的实体边界信息,有助于提升下游任务的准确性。
背景与挑战
背景概述
在生物医学信息抽取领域,高质量标注数据的稀缺性长期制约着命名实体识别系统的演进。NEREL-BIO数据集由莫斯科国立大学等机构的研究团队于2022年构建,旨在填补俄语生物医学文本中嵌套命名实体标注资源的空白。该数据集扩展了通用领域数据集NEREL的标注体系,涵盖了从解剖结构、疾病到化学物质等17个生物医学实体类型,并保留了29个通用实体类型,从而支持跨领域迁移实验。其核心研究问题聚焦于生物医学文本中多层嵌套实体的识别与链接,例如“孤立性支气管切除术”中嵌套的“支气管”与“切除术”等实体。通过对700余篇俄语摘要与100余篇英语摘要进行精细标注,NEREL-BIO不仅提升了实体边界的覆盖完整性,还为建立实体间语义关系及知识库链接提供了坚实基础,显著推动了斯拉夫语系生物医学自然语言处理的发展。
当前挑战
NEREL-BIO数据集所应对的领域挑战主要体现于生物医学嵌套命名实体识别的复杂性。生物医学文本常包含多层嵌套结构,如疾病描述中嵌入解剖术式或化学物质,传统平面实体识别方法难以捕捉此类层次化语义。此外,数据集中实体类型高度专业化,且需与统一医学语言系统(UMLS)等知识体系对齐,增加了实体归一化与链接的难度。在构建过程中,研究团队面临标注一致性与术语规范化的双重挑战:嵌套实体边界界定需依赖领域专家进行多轮校验,而俄语与英语摘要间的非完全平行性(如句式重构与术语差异)进一步加剧了跨语言标注的统一难度。同时,数据集中低频实体类型的稀疏分布也对模型泛化能力提出了严峻考验。
常用场景
经典使用场景
在生物医学信息抽取领域,NEREL-BIO数据集为嵌套命名实体识别提供了关键资源。该数据集基于俄语和少量英语的PubMed摘要构建,其核心应用场景在于支持复杂嵌套结构的实体检测与分类研究。通过标注多层嵌套实体,如解剖结构内嵌疾病术语或化学物质包含于医疗程序描述中,该数据集能够有效评估模型在生物医学文本中识别重叠和层次化实体边界的能力。这一特性使得NEREL-BIO成为推动嵌套实体识别技术发展的基准工具,尤其适用于探索跨语言和跨领域的迁移学习范式。
解决学术问题
NEREL-BIO数据集主要解决了生物医学文本处理中嵌套实体识别的学术挑战。传统命名实体识别方法通常局限于扁平化实体结构,难以捕捉生物医学术语中常见的层次化嵌套关系,例如“孤立性支气管切除术治疗中央型肺癌”这类复合表述。该数据集通过引入多达六层的嵌套标注,为研究嵌套实体检测算法提供了丰富语料,从而促进了实体边界消歧、语义关系抽取以及知识库链接等关键问题的探索。其跨语言和跨领域的特性进一步支持了迁移学习与领域自适应方法的研究,推动了生物医学自然语言处理技术的理论进展。
衍生相关工作
围绕NEREL-BIO数据集,学术界衍生出多项经典研究工作。基于该数据集构建的机器阅读理解模型与序列标注模型,如采用组件化查询策略的MRC框架,已成为嵌套实体识别领域的重要基线方法。这些模型通过融合UMLS医学术语体系,实现了实体类型与知识库概念的高效对齐。同时,数据集启发了跨语言迁移学习的研究,例如利用英语子集训练模型并迁移至俄语文本的处理,推动了低资源语言生物医学信息抽取技术的发展。相关成果进一步扩展至临床文本挖掘、药物不良反应监测等应用方向,形成了从基础识别到下游任务的全链条研究体系。
以上内容由遇见数据集搜集并总结生成



