CORD19BiomedicalNERDataset
收藏github2023-11-24 更新2024-05-31 收录
下载链接:
https://github.com/HermannKroll/CORD19BiomedicalNERDataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于生物医学命名实体识别(NER)的语义丰富数据集,专门用于COVID19开放研究数据集挑战。数据集包含由TaggerOne和GNormPlus通过Python管道发现的实体提及,并以JSON格式存储。
This is a semantically enriched dataset based on biomedical named entity recognition (NER), specifically designed for the COVID-19 Open Research Dataset Challenge. The dataset contains entity mentions identified by TaggerOne and GNormPlus through a Python pipeline, and is stored in JSON format.
创建时间:
2020-05-18
原始信息汇总
数据集概述
数据集名称
- 名称: A Semantically Enriched Dataset based on Biomedical NER for the COVID19 Open Research Dataset Challenge
数据集内容
- 文件类型: JSON dumps
- 内容描述:
- Entity Mentions in titles and abstracts: 包含文档标题和摘要中的实体提及。
- Entity Mentions in full texts: 包含文档标题、摘要和正文中的所有实体提及。
- Metadata.csv: 包含所有文件的元数据,包括用于标识文件的SHA值。
- Translation.json: 映射内部使用的文档ID到metadata.csv文件中使用的cord uid。
数据集版本
- 版本列表:
- CORD19 - Version 106
- CORD19 - Version 70
- CORD19 - Version 54
- CORD19 - Version 44
- CORD19 - Version 38
- CORD19 - Version 30
- CORD19 - Version 22
- CORD19 - Version 9
数据集格式
- JSON格式:
- paper-id: 原始JSON解析的文件名。
- location: 实体提及在文档中的位置。
- paragraph: 段落标识(0: 标题, 1: 摘要, >1: 正文段落)。
- start: 段落中的起始字符位置。
- end: 段落中的结束字符位置。
- entity_str: 实体提及的文本。
- entity_type: 实体类型(Chemical, Disease, Gene, Species)。
- entity_id: 实体的唯一ID。
实体ID来源
- MeSH: 化学物质和疾病,ID以
MESH开头。 - OMIM Database: 疾病,ID以
OMIM开头。 - NCBI Gene Information: 基因。
- NCBI Species Taxonomy: 物种。
引用信息
-
引用格式:
@misc{kroll2020cord19entityannotations, title={A Semantically Enriched Dataset based on Biomedical NER for the COVID19 Open Research Dataset Challenge}, author={Hermann Kroll and Jan Pirklbauer and Johannes Ruthmann and Wolf-Tilo Balke}, year={2020}, eprint={2005.08823}, archivePrefix={arXiv}, primaryClass={cs.DL} }
许可证
- 许可证类型: Creative Commons Attribution 4.0 International license (CC BY 4.0)
搜集汇总
数据集介绍

构建方式
CORD19BiomedicalNERDataset的构建基于COVID-19开放研究数据集(CORD-19),通过TaggerOne和GNormPlus工具进行生物医学命名实体识别(NER)。该数据集采用Python管道处理,提取了文献标题、摘要及正文中的实体提及,并以JSON格式存储。实体类型包括化学物质、疾病、基因和物种,每个实体均附有唯一的标识符,如MeSH、OMIM、NCBI Gene和NCBI Taxonomy等标准词汇库的ID。数据集的构建过程确保了实体信息的准确性和一致性,为后续研究提供了高质量的语义标注数据。
使用方法
使用CORD19BiomedicalNERDataset时,用户可通过下载不同版本的JSON文件获取实体提及数据。每个文件包含文献ID、实体位置、实体字符串、实体类型及实体ID等信息。用户可根据需求选择仅包含标题和摘要的实体提及文件,或包含全文实体提及的完整文件。数据集还提供了元数据文件和翻译文件,便于用户将内部文档ID与CORD-19的UID进行映射。通过解析JSON文件,用户可以快速提取特定实体类型或文献中的实体信息,支持生物医学文本挖掘和知识发现任务。
背景与挑战
背景概述
CORD19BiomedicalNERDataset是一个基于生物医学命名实体识别(NER)的语义增强数据集,专为COVID-19开放研究数据集挑战而设计。该数据集由Hermann Kroll、Jan Pirklbauer、Johannes Ruthmann和Wolf-Tilo Balke等研究人员于2020年创建,基于CORD-19数据集,并利用TaggerOne和GNormPlus工具通过Python管道提取实体提及。该数据集的核心研究问题在于通过自动化的实体识别技术,从大量的COVID-19相关文献中提取出关键的生物医学实体,如化学物质、疾病、基因和物种等,以支持生物医学研究和知识图谱构建。该数据集在生物医学信息提取和自然语言处理领域具有重要影响力,为研究人员提供了丰富的语义信息,助力于COVID-19相关研究的深入探索。
当前挑战
CORD19BiomedicalNERDataset在解决生物医学文献中的实体识别问题时面临多重挑战。首先,生物医学领域的实体识别本身具有高度复杂性,实体名称的多样性和同义词现象使得准确识别和分类变得困难。其次,数据集的构建过程中,研究人员需要处理大量的非结构化文本数据,并确保实体提及的准确性和一致性。此外,由于COVID-19研究文献的快速更新,数据集需要持续更新以保持其时效性,这对数据维护和版本控制提出了更高的要求。最后,数据集中涉及的实体类型和标识符来自多个外部数据库(如MeSH、OMIM、NCBI等),如何有效整合这些异构数据源并确保其一致性,也是构建过程中的一大挑战。
常用场景
经典使用场景
CORD19BiomedicalNERDataset在生物医学领域的自然语言处理研究中扮演着重要角色,尤其是在COVID-19相关文献的实体识别任务中。该数据集通过标注文献中的化学物质、疾病、基因和物种等实体,为研究人员提供了丰富的语义信息,助力于文本挖掘和信息抽取。
解决学术问题
该数据集有效解决了生物医学文献中实体识别的难题,特别是在COVID-19研究领域。通过提供高质量的实体标注数据,研究人员能够更准确地识别和分类文献中的关键生物医学实体,从而加速相关研究的进展。此外,该数据集还为生物医学知识图谱的构建提供了重要支持。
实际应用
在实际应用中,CORD19BiomedicalNERDataset被广泛用于开发自动化文献分析工具,帮助研究人员快速筛选和提取COVID-19相关文献中的关键信息。这些工具在药物研发、流行病学研究和临床决策支持系统中发挥了重要作用,显著提升了研究效率。
数据集最近研究
最新研究方向
在生物医学领域,CORD19BiomedicalNERDataset的最新研究方向聚焦于利用自然语言处理技术对COVID-19相关文献进行深度语义分析。该数据集通过TaggerOne和GNormPlus工具提取了丰富的生物医学实体,如化学物质、疾病、基因和物种等,为研究者提供了结构化的实体标注信息。当前研究热点包括基于这些实体标注的文献语义理解、知识图谱构建以及跨文献的实体关系挖掘。这些研究不仅有助于加速COVID-19相关研究的进展,还为生物医学信息抽取和知识发现提供了新的技术路径。该数据集的持续更新和开放共享,进一步推动了全球科研社区在疫情背景下的协作与创新。
以上内容由遇见数据集搜集并总结生成



