bigbio/bc5cdr

Name: bigbio/bc5cdr
Creator: bigbio
Published: 2025-01-14 19:05:31
License: 暂无描述

Hugging Face2025-01-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/bc5cdr

下载链接

链接失效反馈

官方服务：

资源简介：

BioCreative V化学疾病关系（CDR）数据集是一个大规模注释文本语料库，包含1500篇PubMed文章中所有化学物质、疾病及其相互作用的人类注释。

The BioCreative V Chemical-Disease Relation (CDR) Dataset is a large-scale annotated text corpus containing human-annotated records of all chemicals, diseases and their interactions across 1500 PubMed articles.

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: BC5CDR
语言: 英语
许可证: 公共领域标记1.0
多语言性: 单语种

数据集描述

主页: http://www.biocreative.org/tasks/biocreative-v/track-3-cdr/
是否公开: 是
是否包含PubMed数据: 是
任务类型:
- 命名实体识别 (NER)
- 命名实体消歧 (NED)
- 关系抽取 (RE)

数据集内容

描述: BC5CDR数据集是一个包含1500篇PubMed文章的大规模标注文本语料库，其中包含了所有化学物质、疾病及其相互作用的人工标注。

引用信息

@article{DBLP:journals/biodb/LiSJSWLDMWL16, author = {Jiao Li and Yueping Sun and Robin J. Johnson and Daniela Sciaky and Chih{-}Hsuan Wei and Robert Leaman and Allan Peter Davis and Carolyn J. Mattingly and Thomas C. Wiegers and Zhiyong Lu}, title = {BioCreative {V} {CDR} task corpus: a resource for chemical disease relation extraction}, journal = {Database J. Biol. Databases Curation}, volume = {2016}, year = {2016}, url = {https://doi.org/10.1093/database/baw068}, doi = {10.1093/database/baw068}, timestamp = {Thu, 13 Aug 2020 12:41:41 +0200}, biburl = {https://dblp.org/rec/journals/biodb/LiSJSWLDMWL16.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

BC5CDR数据集的构建基于对1,500篇PubMed文章的深入分析，通过人工注释的方式，系统地识别并标注了文本中的化学物质、疾病及其相互关系。这一过程确保了数据的高质量和准确性，为后续的生物医学信息提取任务提供了坚实的基础。

特点

BC5CDR数据集的显著特点在于其专注于化学物质与疾病之间的关联，涵盖了命名实体识别（NER）、命名实体消歧（NED）以及关系抽取（RE）等多项任务。此外，该数据集的公开性和广泛的应用范围，使其成为生物医学领域研究的重要资源。

使用方法

BC5CDR数据集适用于多种生物医学信息提取任务，包括但不限于化学物质与疾病的命名实体识别、实体消歧以及关系抽取。研究者可以通过访问其官方主页获取数据，并利用这些标注信息进行模型训练和验证，从而提升在相关领域的研究水平。

背景与挑战

背景概述

在生物医学领域，化学物质与疾病之间的关系识别是推动精准医学和药物研发的关键环节。BC5CDR数据集，由BioCreative V项目于2016年发布，汇集了1500篇PubMed文章中的化学物质、疾病及其相互作用的详细标注。该数据集由Jiao Li、Yueping Sun等研究人员共同创建，旨在为化学疾病关系提取提供一个标准化的资源。通过这一数据集，研究者们能够更有效地开发和验证用于识别和解析生物医学文本中复杂关系的算法，从而加速相关领域的知识发现和技术进步。

当前挑战

BC5CDR数据集在构建过程中面临多重挑战。首先，生物医学文本的复杂性和专业性要求高度精确的标注，这增加了数据集创建的难度。其次，化学物质与疾病之间关系的多样性和复杂性使得关系提取任务变得尤为复杂。此外，数据集的规模和多样性要求高效的算法和计算资源来处理和分析。这些挑战不仅影响了数据集的质量和可用性，也对后续研究提出了更高的技术要求，推动了自然语言处理和生物信息学领域的技术革新。

常用场景

经典使用场景

在生物医学领域，BC5CDR数据集被广泛用于化学物质与疾病关系的识别与提取。该数据集通过标注1,500篇PubMed文章中的化学物质、疾病及其相互作用，为研究人员提供了一个丰富的资源。经典的使用场景包括命名实体识别（NER）、命名实体消歧（NED）以及关系抽取（RE），这些任务对于自动化处理生物医学文献中的关键信息至关重要。

实际应用

在实际应用中，BC5CDR数据集被用于开发和验证生物医学信息抽取系统，这些系统广泛应用于药物发现、疾病诊断和治疗方案的制定。例如，制药公司利用该数据集训练模型，以快速识别潜在的药物靶点和疾病关联，从而加速新药的研发进程。此外，医疗机构也利用这些信息系统来辅助临床决策，提高诊断的准确性和治疗的有效性。

衍生相关工作

基于BC5CDR数据集，许多经典工作得以展开，包括但不限于改进的命名实体识别算法、关系抽取模型以及跨文档信息整合技术。例如，有研究通过结合深度学习技术，显著提升了化学物质与疾病关系的识别精度。此外，该数据集还激发了多任务学习方法的研究，旨在同时处理NER、NED和RE任务，以提高整体系统的效率和性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集