bigbio/biored

Name: bigbio/biored
Creator: bigbio
Published: 2023-01-12 05:54:49
License: 暂无描述

Hugging Face2023-01-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/biored

下载链接

链接失效反馈

官方服务：

资源简介：

BioRED是一个全面的生物医学关系抽取数据集，包含多种实体类型（如基因/蛋白质、疾病、化学物质）和关系对（如基因-疾病；化学物质-化学物质），基于600篇PubMed文章。

BioRED is a comprehensive biomedical relation extraction dataset encompassing multiple entity types (e.g., gene/protein, disease, and chemical substance) and relation pairs (e.g., gene-disease; chemical-chemical), constructed from 600 PubMed articles.

提供机构：

bigbio

原始信息汇总

BioRED数据集概述

基本信息

语言: 英语
许可证: 未知
多语言性: 单语
数据集名称: BioRED
主页: https://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/
是否公开: 是
是否PubMed可用: 是

任务

命名实体识别 (NER)
关系抽取 (RE)

描述

BioRED是一个包含多种实体类型（如基因/蛋白质、疾病、化学物质）和关系对（如基因-疾病；化学物质-化学物质）的关系抽取语料库，基于600篇PubMed文章构建。

引用信息

@article{DBLP:journals/corr/abs-2204-04263, author = {Ling Luo and Po{-}Ting Lai and Chih{-}Hsuan Wei and Cecilia N. Arighi and Zhiyong Lu}, title = {BioRED: {A} Comprehensive Biomedical Relation Extraction Dataset}, journal = {CoRR}, volume = {abs/2204.04263}, year = {2022}, url = {https://doi.org/10.48550/arXiv.2204.04263}, doi = {10.48550/arXiv.2204.04263}, eprinttype = {arXiv}, eprint = {2204.04263}, timestamp = {Wed, 11 May 2022 15:24:37 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2204-04263.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

BioRED数据集的构建，是在对PubMed文章进行深入分析的基础上，筛选出600篇文章，从中提取出涉及基因/蛋白、疾病、化学物质等多种实体类型及其相互关系对（如基因-疾病、化学物质-化学物质）的语料库。此过程涉及对专业生物医学文献的细致阅读与信息抽取，确保了数据集的准确性与专业性。

使用方法

用户可从BioRED数据集的官方网站下载该数据集，并根据其提供的文档说明进行使用。数据集适用于命名实体识别和关系抽取等自然语言处理任务，研究者可利用该数据集进行模型训练、评估及优化，以推动生物医学文本挖掘技术的发展。

背景与挑战

背景概述

在生物医学文本挖掘领域，实体识别与关系提取是两项基础且关键的任务。BioRED数据集，全称为Biomedical Relation Extraction Dataset，由Ling Luo等研究人员于2022年创建，旨在为这两项任务提供全面的训练资源。该数据集依托于600篇PubMed文章，涵盖了基因/蛋白质、疾病、化学物质等多种实体类型，以及如基因-疾病、化学-化学等关系对。作为公开可用的数据集，BioRED在生物医学信息学研究领域具有重要的影响力，为相关模型的开发与评估提供了宝贵的基准。

当前挑战

尽管BioRED数据集为生物医学关系提取研究提供了重要的资源，但其构建过程中亦面临诸多挑战。首先，生物医学文献中实体与关系的多样性及复杂性使得标注工作极具难度。其次，跨实体类型的关系抽取需要更加精细化的模型设计。此外，数据集的规模限制了模型的泛化能力，如何在保持数据质量的同时扩展数据集规模，是当前研究的一个重要挑战。

常用场景

经典使用场景

在生物医学文本挖掘领域，BioRED数据集以其丰富的实体类型和关系对，成为研究和评估命名实体识别与关系抽取任务的重要资源。该数据集基于600篇PubMed文章，提供了诸如基因、疾病、化学等实体类型的标注，以及它们之间如基因-疾病、化学-化学等关系对的标注，为研究者提供了一个标准的实验平台。

解决学术问题

BioRED数据集解决了生物医学领域中，实体间复杂关系抽取的难题。它不仅为实体识别任务提供了多样化的实体类型，还涵盖了实体之间相互作用的关系，这对于理解生物医学文献中深层次的信息交互至关重要。因此，该数据集对于提升生物医学文本挖掘的研究水平，具有显著的意义和影响。

实际应用

在实际应用中，BioRED数据集的应用范围广泛，它可被用于构建生物信息学知识库，辅助药物发现和疾病机理研究。此外，通过该数据集训练的模型能够帮助研究人员快速定位文献中的关键信息，提高科研效率，对于生物医学领域的知识发现和决策支持具有重要作用。

数据集最近研究