five

CORD19BiomedicalNERDataset

收藏
github2023-11-24 更新2024-05-31 收录
下载链接:
https://github.com/HermannKroll/CORD19BiomedicalNERDataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于生物医学命名实体识别(NER)的语义丰富数据集,专门用于COVID19开放研究数据集挑战。数据集包含由TaggerOne和GNormPlus通过Python管道发现的实体提及,并以JSON格式存储。

This is a semantically enriched dataset based on biomedical named entity recognition (NER), specifically designed for the COVID-19 Open Research Dataset Challenge. The dataset contains entity mentions identified by TaggerOne and GNormPlus through a Python pipeline, and is stored in JSON format.
创建时间:
2020-05-18
原始信息汇总

数据集概述

数据集名称

  • 名称: A Semantically Enriched Dataset based on Biomedical NER for the COVID19 Open Research Dataset Challenge

数据集内容

  • 文件类型: JSON dumps
  • 内容描述:
    • Entity Mentions in titles and abstracts: 包含文档标题和摘要中的实体提及。
    • Entity Mentions in full texts: 包含文档标题、摘要和正文中的所有实体提及。
    • Metadata.csv: 包含所有文件的元数据,包括用于标识文件的SHA值。
    • Translation.json: 映射内部使用的文档ID到metadata.csv文件中使用的cord uid。

数据集版本

  • 版本列表:
    • CORD19 - Version 106
    • CORD19 - Version 70
    • CORD19 - Version 54
    • CORD19 - Version 44
    • CORD19 - Version 38
    • CORD19 - Version 30
    • CORD19 - Version 22
    • CORD19 - Version 9

数据集格式

  • JSON格式:
    • paper-id: 原始JSON解析的文件名。
    • location: 实体提及在文档中的位置。
      • paragraph: 段落标识(0: 标题, 1: 摘要, >1: 正文段落)。
      • start: 段落中的起始字符位置。
      • end: 段落中的结束字符位置。
    • entity_str: 实体提及的文本。
    • entity_type: 实体类型(Chemical, Disease, Gene, Species)。
    • entity_id: 实体的唯一ID。

实体ID来源

  • MeSH: 化学物质和疾病,ID以MESH开头。
  • OMIM Database: 疾病,ID以OMIM开头。
  • NCBI Gene Information: 基因。
  • NCBI Species Taxonomy: 物种。

引用信息

  • 引用格式:

    @misc{kroll2020cord19entityannotations, title={A Semantically Enriched Dataset based on Biomedical NER for the COVID19 Open Research Dataset Challenge}, author={Hermann Kroll and Jan Pirklbauer and Johannes Ruthmann and Wolf-Tilo Balke}, year={2020}, eprint={2005.08823}, archivePrefix={arXiv}, primaryClass={cs.DL} }

许可证

  • 许可证类型: Creative Commons Attribution 4.0 International license (CC BY 4.0)
搜集汇总
数据集介绍
main_image_url
构建方式
CORD19BiomedicalNERDataset的构建基于COVID-19开放研究数据集(CORD-19),通过TaggerOne和GNormPlus工具进行生物医学命名实体识别(NER)。该数据集采用Python管道处理,提取了文献标题、摘要及正文中的实体提及,并以JSON格式存储。实体类型包括化学物质、疾病、基因和物种,每个实体均附有唯一的标识符,如MeSH、OMIM、NCBI Gene和NCBI Taxonomy等标准词汇库的ID。数据集的构建过程确保了实体信息的准确性和一致性,为后续研究提供了高质量的语义标注数据。
使用方法
使用CORD19BiomedicalNERDataset时,用户可通过下载不同版本的JSON文件获取实体提及数据。每个文件包含文献ID、实体位置、实体字符串、实体类型及实体ID等信息。用户可根据需求选择仅包含标题和摘要的实体提及文件,或包含全文实体提及的完整文件。数据集还提供了元数据文件和翻译文件,便于用户将内部文档ID与CORD-19的UID进行映射。通过解析JSON文件,用户可以快速提取特定实体类型或文献中的实体信息,支持生物医学文本挖掘和知识发现任务。
背景与挑战
背景概述
CORD19BiomedicalNERDataset是一个基于生物医学命名实体识别(NER)的语义增强数据集,专为COVID-19开放研究数据集挑战而设计。该数据集由Hermann Kroll、Jan Pirklbauer、Johannes Ruthmann和Wolf-Tilo Balke等研究人员于2020年创建,基于CORD-19数据集,并利用TaggerOne和GNormPlus工具通过Python管道提取实体提及。该数据集的核心研究问题在于通过自动化的实体识别技术,从大量的COVID-19相关文献中提取出关键的生物医学实体,如化学物质、疾病、基因和物种等,以支持生物医学研究和知识图谱构建。该数据集在生物医学信息提取和自然语言处理领域具有重要影响力,为研究人员提供了丰富的语义信息,助力于COVID-19相关研究的深入探索。
当前挑战
CORD19BiomedicalNERDataset在解决生物医学文献中的实体识别问题时面临多重挑战。首先,生物医学领域的实体识别本身具有高度复杂性,实体名称的多样性和同义词现象使得准确识别和分类变得困难。其次,数据集的构建过程中,研究人员需要处理大量的非结构化文本数据,并确保实体提及的准确性和一致性。此外,由于COVID-19研究文献的快速更新,数据集需要持续更新以保持其时效性,这对数据维护和版本控制提出了更高的要求。最后,数据集中涉及的实体类型和标识符来自多个外部数据库(如MeSH、OMIM、NCBI等),如何有效整合这些异构数据源并确保其一致性,也是构建过程中的一大挑战。
常用场景
经典使用场景
CORD19BiomedicalNERDataset在生物医学领域的自然语言处理研究中扮演着重要角色,尤其是在COVID-19相关文献的实体识别任务中。该数据集通过标注文献中的化学物质、疾病、基因和物种等实体,为研究人员提供了丰富的语义信息,助力于文本挖掘和信息抽取。
解决学术问题
该数据集有效解决了生物医学文献中实体识别的难题,特别是在COVID-19研究领域。通过提供高质量的实体标注数据,研究人员能够更准确地识别和分类文献中的关键生物医学实体,从而加速相关研究的进展。此外,该数据集还为生物医学知识图谱的构建提供了重要支持。
实际应用
在实际应用中,CORD19BiomedicalNERDataset被广泛用于开发自动化文献分析工具,帮助研究人员快速筛选和提取COVID-19相关文献中的关键信息。这些工具在药物研发、流行病学研究和临床决策支持系统中发挥了重要作用,显著提升了研究效率。
数据集最近研究
最新研究方向
在生物医学领域,CORD19BiomedicalNERDataset的最新研究方向聚焦于利用自然语言处理技术对COVID-19相关文献进行深度语义分析。该数据集通过TaggerOne和GNormPlus工具提取了丰富的生物医学实体,如化学物质、疾病、基因和物种等,为研究者提供了结构化的实体标注信息。当前研究热点包括基于这些实体标注的文献语义理解、知识图谱构建以及跨文献的实体关系挖掘。这些研究不仅有助于加速COVID-19相关研究的进展,还为生物医学信息抽取和知识发现提供了新的技术路径。该数据集的持续更新和开放共享,进一步推动了全球科研社区在疫情背景下的协作与创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作