bigbio/bc5cdr|生物信息学数据集|药物发现数据集

hugging_face2025-01-14 更新2024-03-04 收录

生物信息学

药物发现

下载链接：

https://hf-mirror.com/datasets/bigbio/bc5cdr

下载链接

链接失效反馈

资源简介：

BioCreative V化学疾病关系（CDR）数据集是一个大规模注释文本语料库，包含1500篇PubMed文章中所有化学物质、疾病及其相互作用的人类注释。

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: BC5CDR
语言: 英语
许可证: 公共领域标记1.0
多语言性: 单语种

数据集描述

主页: http://www.biocreative.org/tasks/biocreative-v/track-3-cdr/
是否公开: 是
是否包含PubMed数据: 是
任务类型:
- 命名实体识别 (NER)
- 命名实体消歧 (NED)
- 关系抽取 (RE)

数据集内容

描述: BC5CDR数据集是一个包含1500篇PubMed文章的大规模标注文本语料库，其中包含了所有化学物质、疾病及其相互作用的人工标注。

引用信息

@article{DBLP:journals/biodb/LiSJSWLDMWL16, author = {Jiao Li and Yueping Sun and Robin J. Johnson and Daniela Sciaky and Chih{-}Hsuan Wei and Robert Leaman and Allan Peter Davis and Carolyn J. Mattingly and Thomas C. Wiegers and Zhiyong Lu}, title = {BioCreative {V} {CDR} task corpus: a resource for chemical disease relation extraction}, journal = {Database J. Biol. Databases Curation}, volume = {2016}, year = {2016}, url = {https://doi.org/10.1093/database/baw068}, doi = {10.1093/database/baw068}, timestamp = {Thu, 13 Aug 2020 12:41:41 +0200}, biburl = {https://dblp.org/rec/journals/biodb/LiSJSWLDMWL16.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

AI搜集汇总

数据集介绍

构建方式

BC5CDR数据集的构建基于对1,500篇PubMed文章的深入分析，通过人工注释的方式，系统地识别并标注了文本中的化学物质、疾病及其相互关系。这一过程确保了数据的高质量和准确性，为后续的生物医学信息提取任务提供了坚实的基础。

特点

BC5CDR数据集的显著特点在于其专注于化学物质与疾病之间的关联，涵盖了命名实体识别（NER）、命名实体消歧（NED）以及关系抽取（RE）等多项任务。此外，该数据集的公开性和广泛的应用范围，使其成为生物医学领域研究的重要资源。

使用方法

BC5CDR数据集适用于多种生物医学信息提取任务，包括但不限于化学物质与疾病的命名实体识别、实体消歧以及关系抽取。研究者可以通过访问其官方主页获取数据，并利用这些标注信息进行模型训练和验证，从而提升在相关领域的研究水平。

背景与挑战

背景概述

在生物医学领域，化学物质与疾病之间的关系识别是推动精准医学和药物研发的关键环节。BC5CDR数据集，由BioCreative V项目于2016年发布，汇集了1500篇PubMed文章中的化学物质、疾病及其相互作用的详细标注。该数据集由Jiao Li、Yueping Sun等研究人员共同创建，旨在为化学疾病关系提取提供一个标准化的资源。通过这一数据集，研究者们能够更有效地开发和验证用于识别和解析生物医学文本中复杂关系的算法，从而加速相关领域的知识发现和技术进步。

当前挑战

BC5CDR数据集在构建过程中面临多重挑战。首先，生物医学文本的复杂性和专业性要求高度精确的标注，这增加了数据集创建的难度。其次，化学物质与疾病之间关系的多样性和复杂性使得关系提取任务变得尤为复杂。此外，数据集的规模和多样性要求高效的算法和计算资源来处理和分析。这些挑战不仅影响了数据集的质量和可用性，也对后续研究提出了更高的技术要求，推动了自然语言处理和生物信息学领域的技术革新。

常用场景

经典使用场景

在生物医学领域，BC5CDR数据集被广泛用于化学物质与疾病关系的识别与提取。该数据集通过标注1,500篇PubMed文章中的化学物质、疾病及其相互作用，为研究人员提供了一个丰富的资源。经典的使用场景包括命名实体识别（NER）、命名实体消歧（NED）以及关系抽取（RE），这些任务对于自动化处理生物医学文献中的关键信息至关重要。

实际应用

在实际应用中，BC5CDR数据集被用于开发和验证生物医学信息抽取系统，这些系统广泛应用于药物发现、疾病诊断和治疗方案的制定。例如，制药公司利用该数据集训练模型，以快速识别潜在的药物靶点和疾病关联，从而加速新药的研发进程。此外，医疗机构也利用这些信息系统来辅助临床决策，提高诊断的准确性和治疗的有效性。

衍生相关工作

基于BC5CDR数据集，许多经典工作得以展开，包括但不限于改进的命名实体识别算法、关系抽取模型以及跨文档信息整合技术。例如，有研究通过结合深度学习技术，显著提升了化学物质与疾病关系的识别精度。此外，该数据集还激发了多任务学习方法的研究，旨在同时处理NER、NED和RE任务，以提高整体系统的效率和性能。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录