CORD19BiomedicalNERDataset

github2023-11-24 更新2024-05-31 收录

下载链接：

https://github.com/HermannKroll/CORD19BiomedicalNERDataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于生物医学命名实体识别（NER）的语义丰富数据集，专门用于COVID19开放研究数据集挑战。数据集包含由TaggerOne和GNormPlus通过Python管道发现的实体提及，并以JSON格式存储。

This is a semantically enriched dataset based on biomedical named entity recognition (NER), specifically designed for the COVID-19 Open Research Dataset Challenge. The dataset contains entity mentions identified by TaggerOne and GNormPlus through a Python pipeline, and is stored in JSON format.

创建时间：

2020-05-18

原始信息汇总

数据集概述

数据集名称

名称: A Semantically Enriched Dataset based on Biomedical NER for the COVID19 Open Research Dataset Challenge

数据集内容

文件类型: JSON dumps
内容描述:
- Entity Mentions in titles and abstracts: 包含文档标题和摘要中的实体提及。
- Entity Mentions in full texts: 包含文档标题、摘要和正文中的所有实体提及。
- Metadata.csv: 包含所有文件的元数据，包括用于标识文件的SHA值。
- Translation.json: 映射内部使用的文档ID到metadata.csv文件中使用的cord uid。

数据集版本

版本列表:
- CORD19 - Version 106
- CORD19 - Version 70
- CORD19 - Version 54
- CORD19 - Version 44
- CORD19 - Version 38
- CORD19 - Version 30
- CORD19 - Version 22
- CORD19 - Version 9

数据集格式

JSON格式:
- paper-id: 原始JSON解析的文件名。
- location: 实体提及在文档中的位置。
  - paragraph: 段落标识（0: 标题, 1: 摘要, >1: 正文段落）。
  - start: 段落中的起始字符位置。
  - end: 段落中的结束字符位置。
- entity_str: 实体提及的文本。
- entity_type: 实体类型（Chemical, Disease, Gene, Species）。
- entity_id: 实体的唯一ID。

实体ID来源

MeSH: 化学物质和疾病，ID以MESH开头。
OMIM Database: 疾病，ID以OMIM开头。
NCBI Gene Information: 基因。
NCBI Species Taxonomy: 物种。

引用信息

引用格式:

@misc{kroll2020cord19entityannotations, title={A Semantically Enriched Dataset based on Biomedical NER for the COVID19 Open Research Dataset Challenge}, author={Hermann Kroll and Jan Pirklbauer and Johannes Ruthmann and Wolf-Tilo Balke}, year={2020}, eprint={2005.08823}, archivePrefix={arXiv}, primaryClass={cs.DL} }

许可证

许可证类型: Creative Commons Attribution 4.0 International license (CC BY 4.0)

搜集汇总

数据集介绍

构建方式

CORD19BiomedicalNERDataset的构建基于COVID-19开放研究数据集（CORD-19），通过TaggerOne和GNormPlus工具进行生物医学命名实体识别（NER）。该数据集采用Python管道处理，提取了文献标题、摘要及正文中的实体提及，并以JSON格式存储。实体类型包括化学物质、疾病、基因和物种，每个实体均附有唯一的标识符，如MeSH、OMIM、NCBI Gene和NCBI Taxonomy等标准词汇库的ID。数据集的构建过程确保了实体信息的准确性和一致性，为后续研究提供了高质量的语义标注数据。

使用方法

使用CORD19BiomedicalNERDataset时，用户可通过下载不同版本的JSON文件获取实体提及数据。每个文件包含文献ID、实体位置、实体字符串、实体类型及实体ID等信息。用户可根据需求选择仅包含标题和摘要的实体提及文件，或包含全文实体提及的完整文件。数据集还提供了元数据文件和翻译文件，便于用户将内部文档ID与CORD-19的UID进行映射。通过解析JSON文件，用户可以快速提取特定实体类型或文献中的实体信息，支持生物医学文本挖掘和知识发现任务。

背景与挑战

背景概述

CORD19BiomedicalNERDataset是一个基于生物医学命名实体识别（NER）的语义增强数据集，专为COVID-19开放研究数据集挑战而设计。该数据集由Hermann Kroll、Jan Pirklbauer、Johannes Ruthmann和Wolf-Tilo Balke等研究人员于2020年创建，基于CORD-19数据集，并利用TaggerOne和GNormPlus工具通过Python管道提取实体提及。该数据集的核心研究问题在于通过自动化的实体识别技术，从大量的COVID-19相关文献中提取出关键的生物医学实体，如化学物质、疾病、基因和物种等，以支持生物医学研究和知识图谱构建。该数据集在生物医学信息提取和自然语言处理领域具有重要影响力，为研究人员提供了丰富的语义信息，助力于COVID-19相关研究的深入探索。

当前挑战

CORD19BiomedicalNERDataset在解决生物医学文献中的实体识别问题时面临多重挑战。首先，生物医学领域的实体识别本身具有高度复杂性，实体名称的多样性和同义词现象使得准确识别和分类变得困难。其次，数据集的构建过程中，研究人员需要处理大量的非结构化文本数据，并确保实体提及的准确性和一致性。此外，由于COVID-19研究文献的快速更新，数据集需要持续更新以保持其时效性，这对数据维护和版本控制提出了更高的要求。最后，数据集中涉及的实体类型和标识符来自多个外部数据库（如MeSH、OMIM、NCBI等），如何有效整合这些异构数据源并确保其一致性，也是构建过程中的一大挑战。

常用场景

经典使用场景

CORD19BiomedicalNERDataset在生物医学领域的自然语言处理研究中扮演着重要角色，尤其是在COVID-19相关文献的实体识别任务中。该数据集通过标注文献中的化学物质、疾病、基因和物种等实体，为研究人员提供了丰富的语义信息，助力于文本挖掘和信息抽取。

解决学术问题

该数据集有效解决了生物医学文献中实体识别的难题，特别是在COVID-19研究领域。通过提供高质量的实体标注数据，研究人员能够更准确地识别和分类文献中的关键生物医学实体，从而加速相关研究的进展。此外，该数据集还为生物医学知识图谱的构建提供了重要支持。

实际应用

在实际应用中，CORD19BiomedicalNERDataset被广泛用于开发自动化文献分析工具，帮助研究人员快速筛选和提取COVID-19相关文献中的关键信息。这些工具在药物研发、流行病学研究和临床决策支持系统中发挥了重要作用，显著提升了研究效率。

数据集最近研究