BioRED
收藏arXiv2022-06-20 更新2024-06-21 收录
下载链接:
https://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/
下载链接
链接失效反馈官方服务:
资源简介:
BioRED是一个专为生物医学领域设计的丰富关系抽取数据集,由国家生物技术信息中心创建。该数据集包含600篇PubMed摘要,涉及基因、疾病、化学物质等多种实体类型及其相互关系。数据集特别之处在于对每种关系进行了新发现与背景知识的标注,以帮助算法区分这两类信息。创建过程中,研究团队采用了随机抽样和人工标注相结合的方法,确保数据的质量和代表性。BioRED数据集的应用领域广泛,旨在解决生物医学文本中信息抽取的挑战,特别是在识别新发现和避免重复信息方面。
BioRED is a rich relation extraction dataset specifically designed for the biomedical domain, created by the National Center for Biotechnology Information. This dataset comprises 600 PubMed abstracts, covering multiple entity types including genes, diseases, chemicals and their interrelations. A distinctive characteristic of this dataset is that it annotates every relationship with two categories: newly discovered findings and background knowledge, enabling algorithms to differentiate between these two types of information. During its curation, the research team employed a hybrid approach of random sampling and manual annotation to guarantee the dataset's quality and representativeness. The BioRED dataset has broad application prospects, aiming to address the challenges of information extraction from biomedical texts, especially in identifying newly discovered findings and avoiding duplicate information.
提供机构:
国家生物技术信息中心
创建时间:
2022-04-09
搜集汇总
数据集介绍

构建方式
BioRED的构建方式独具匠心,首先通过回顾常用的命名实体识别(NER)和关系抽取(RE)数据集,确定了关键实体和关系的类型。随后,从600篇PubMed摘要中抽取了包括基因、疾病、化学物质等多种实体类型及其关系对,并进一步标注了这些关系是否为新发现或已知背景知识。这种精细的标注方式使得BioRED不仅是一个丰富的生物医学关系抽取语料库,还能帮助算法区分新知识和背景信息。
特点
BioRED的显著特点在于其多样的实体类型和关系对,涵盖了基因、疾病、化学物质等六种常见实体,并标注了八种不同类型的关系。此外,BioRED还创新性地标注了关系的新颖性,即区分新发现和已知背景知识,这一特性为生物医学领域的信息抽取提供了新的挑战和机遇。
使用方法
BioRED数据集适用于多种生物医学自然语言处理任务,特别是命名实体识别和关系抽取。研究者可以利用该数据集训练和评估模型,以提高在生物医学文本中识别和提取实体及其关系的能力。通过标注的新颖性信息,还可以开发能够区分新知识和背景信息的算法,这对于自动构建生物医学知识库具有重要意义。
背景与挑战
背景概述
BioRED,一个丰富的生物医学关系抽取数据集,由美国国立卫生研究院(NIH)的国家生物技术信息中心(NCBI)于近年创建。该数据集的核心研究问题在于解决现有生物医学关系抽取数据集仅关注单一类型关系(如蛋白质-蛋白质相互作用)的局限性。BioRED通过包含多种实体类型(如基因/蛋白质、疾病、化学物质)和关系对(如基因-疾病;化学物质-化学物质),并标注每种关系是否为新发现或已知背景知识,推动了生物医学文本挖掘技术的发展。该数据集的推出,不仅丰富了生物医学自然语言处理(BioNLP)的研究资源,也为开发更精确、高效和鲁棒的关系抽取系统提供了新的基准。
当前挑战
BioRED数据集在构建过程中面临多项挑战。首先,生物医学文献中的关系抽取任务本身具有高度复杂性,涉及跨句子和跨文档的关系识别。其次,标注过程中需要区分新发现与已知背景知识,这对标注人员的专业知识和标注工具的精确性提出了高要求。此外,数据集的规模和多样性也带来了技术上的挑战,如如何有效处理和利用大规模的标注数据,以及如何设计能够适应多种实体类型和关系类型的模型。这些挑战不仅影响了数据集的构建效率,也对后续的模型训练和评估提出了更高的要求。
常用场景
经典使用场景
BioRED数据集在生物医学关系抽取领域具有经典应用场景,主要用于从生物医学文献中提取多种实体类型(如基因、疾病、化学物质等)及其关系。其独特之处在于不仅限于句子级别的抽取,还扩展到文档级别,支持跨句子的关系识别。此外,BioRED还标注了关系的新颖性,区分了已知背景知识和新发现,这为开发能够识别和区分新旧知识的自然语言处理系统提供了宝贵的资源。
解决学术问题
BioRED数据集解决了生物医学关系抽取中的多个学术研究问题。首先,它克服了现有数据集仅关注单一类型关系(如蛋白质-蛋白质相互作用)的局限性,提供了多类型实体和关系的标注。其次,通过标注关系的新颖性,BioRED促进了研究如何从文献中自动区分新发现和已知背景知识,这对于知识图谱的自动构建和更新具有重要意义。此外,BioRED的文档级别标注为跨句子关系抽取提供了训练和评估的基础,推动了这一领域的研究进展。
衍生相关工作
BioRED数据集的发布催生了一系列相关研究工作。首先,基于BioRED的基准测试,研究人员开发了多种先进的自然语言处理模型,如BERT-based模型,用于生物医学实体识别和关系抽取。其次,BioRED的新颖性标注特性激发了新的研究方向,如如何利用结构化信息(如文献的章节结构)来提高新颖性检测的准确性。此外,BioRED的成功应用还推动了其他生物医学文本挖掘数据集的开发,如DocRED和ChemProt,进一步丰富了生物医学自然语言处理的资源库。
以上内容由遇见数据集搜集并总结生成



