five

BioMNER

收藏
arXiv2024-06-29 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2406.20038v1
下载链接
链接失效反馈
官方服务:
资源简介:
BioMNER数据集由萨里大学等机构创建,专门用于生物医学方法实体识别任务。该数据集包含1262条记录,来源于生物医学文献,通过自动化系统和人工验证确保高质量标注。数据集的创建旨在解决生物医学领域中方法实体识别的挑战,特别是在处理新术语和复杂概念时。

The BioMNER dataset was created by institutions including the University of Surrey, and is specifically designed for biomedical method entity recognition tasks. It contains 1262 records sourced from biomedical literature, with high-quality annotations ensured through automated systems and manual verification. The dataset was developed to address the challenges of method entity recognition in the biomedical domain, particularly when dealing with novel terminology and complex concepts.
提供机构:
萨里大学, 曼彻斯特大学, 匹兹堡大学, 中国科学院, 杜伦大学
创建时间:
2024-06-29
搜集汇总
数据集介绍
main_image_url
构建方式
BioMNER数据集的构建采用了一种自动化的生物医学实体NER系统,该系统首先利用规则和ChatGPT识别潜在的生物医学方法实体候选,然后通过咨询ChatGPT和维基百科获取相关实体信息,进而由人工完成实体标注。
使用方法
使用该数据集时,可以将其作为生物医学方法实体识别任务的训练集和测试集。训练集用于训练模型,测试集用于评估模型性能。同时,数据集还提供了丰富的实体类别和实体标注信息,有助于模型的微调和优化。
背景与挑战
背景概述
BioMNER数据集是由来自University of Surrey, The University of Manchester, University of Pittsburgh, Chinese Academy of Sciences和Durham University的研究人员共同创建的,旨在为生物医学方法实体识别任务提供一个高质量的标注数据集。该数据集的构建始于2023年,主要解决了生物医学领域特有术语的识别问题,这对于提升生物医学文献的解析和理解至关重要。数据集的创建借鉴了最新的语言模型技术,如ALBERT,并结合了规则方法和ChatGPT等大型语言模型来自动识别实体候选,进而通过人工审核的方式完成标注,确保了数据质量。
当前挑战
该数据集面临的挑战主要包括:1) 生物医学领域的术语识别问题,由于新术语的不断涌现,对NER系统提出了更高的要求;2) 构建过程中,如何有效地结合规则方法和大型语言模型,以及如何处理模型参数规模过大导致的实体提取模式学习困难等问题。具体挑战包括:(1) 生物医学方法实体的识别,需要NER系统能够有效学习并识别不断涌现的新术语;(2) 构建过程中,规则方法和大型语言模型的结合,以及如何优化模型参数以适应领域特定知识模式的提取。
常用场景
经典使用场景
BioMNER数据集最经典的使用场景是作为生物医学方法实体识别(Named Entity Recognition, NER)任务的训练和测试数据集。该数据集通过自动识别和提取生物医学文献中的方法实体,为研究人员提供了便捷的方式,以快速获取和理解生物医学领域的研究方法。
解决学术问题
BioMNER数据集解决了生物医学方法实体识别中的标注资源稀缺问题,以及新术语不断涌现带来的挑战。它通过引入自动化的标注辅助系统,提高了标注速度和一致性,为生物医学领域的NER任务提供了高质量的标注数据集,推动了该领域的研究进展。
实际应用
在实际应用中,BioMNER数据集可以用于训练NER模型,帮助研究人员从海量的生物医学文献中快速识别和提取方法实体,进而提高文献处理的效率。此外,它也可以用于生物医学文本的摘要生成、信息检索等任务,具有广泛的应用前景。
数据集最近研究
最新研究方向
本文提出了一个针对生物医学方法命名实体识别任务的BioMNER数据集,并通过实验探讨了多种命名实体识别方法在该数据集上的表现。研究结果表明,大规模语言模型在生物医学领域实体识别上的表现并不理想,而传统的序列标注模型如ALBERT结合条件随机场(CRF)的方法取得了最佳效果。
相关研究论文
  • 1
    BioMNER: A Dataset for Biomedical Method Entity Recognition萨里大学, 曼彻斯特大学, 匹兹堡大学, 中国科学院, 杜伦大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作