bigbio/chemprot

Name: bigbio/chemprot
Creator: bigbio
Published: 2025-06-19 11:11:06
License: 暂无描述

Hugging Face2025-06-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/chemprot

下载链接

链接失效反馈

官方服务：

资源简介：

BioCreative VI化学-蛋白质相互作用数据集用于识别化学物质和蛋白质实体及其相互关系，特别是化合物作为蛋白质的激动剂（激活剂）或拮抗剂（抑制剂）的关系。

The BioCreative VI Chemical-Protein Interaction Dataset is designed to identify chemical substances and protein entities as well as their interactions, particularly the relationships where compounds act as agonists (activators) or antagonists (inhibitors) of proteins.

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: ChemProt
语言: 英语
许可证: 其他
多语言性: 单语
许可证简称: PUBLIC_DOMAIN_MARK_1p0

访问与使用

主页: https://biocreative.bioinformatics.udel.edu/tasks/biocreative-vi/track-5/
是否公开: 是
是否可在PubMed访问: 是

数据集任务

关系抽取 (RELATION_EXTRACTION)
命名实体识别 (NAMED_ENTITY_RECOGNITION)

数据集内容

描述: 该数据集用于识别化学物质和蛋白质的实体及其相互关系。化学物质通常作为蛋白质的激动剂（激活剂）或拮抗剂（抑制剂）。

引用信息

@article{DBLP:journals/biodb/LiSJSWLDMWL16, author = {Krallinger, M., Rabal, O., Lourenço, A.}, title = {Overview of the BioCreative VI chemical-protein interaction Track}, journal = {Proceedings of the BioCreative VI Workshop,}, volume = {141-146}, year = {2017}, url = {https://biocreative.bioinformatics.udel.edu/tasks/biocreative-vi/track-5/}, doi = {}, biburl = {}, bibsource = {} }

搜集汇总

数据集介绍

构建方式

在生物医学信息抽取领域，ChemProt数据集作为BioCreative VI竞赛的核心资源，其构建过程体现了严谨的学术规范。该数据集源自PubMed文献摘要，通过专家标注的方式，系统识别并标注了化学物质与蛋白质两类实体，并进一步定义了它们之间复杂的相互作用关系，如激动剂与拮抗剂等。整个语料库被精心划分为训练集、验证集和测试集，确保了机器学习模型评估的可靠性与可复现性，为化学-蛋白质相互作用研究提供了结构化的知识基础。

特点

ChemProt数据集在生物医学自然语言处理领域展现出鲜明的特色。其核心在于提供了化学物质与蛋白质相互作用的精细标注，涵盖了实体识别与关系抽取双重任务。数据集以标准化的知识库格式组织，包含详尽的实体偏移、类型及归一化信息，并支持事件与共指解析等高级语义结构。这种多层次、结构化的标注体系，使得该数据集能够支撑从基础命名实体识别到复杂关系网络构建的一系列前沿研究，具有高度的学术价值与应用潜力。

使用方法

研究人员可通过HuggingFace平台便捷获取ChemProt数据集，其提供了`chemprot_bigbio_kb`等不同配置以适应多样化的研究需求。典型的使用流程始于数据加载，随后可依据任务目标，如关系分类或实体链接，提取相应的文本片段、实体边界及关系标签。该数据集已预置标准分割，便于直接用于模型训练与性能评估。在生物医学文本挖掘项目中，它常作为基准数据集，用于开发和验证信息抽取模型，推动药物发现与分子机制研究的自动化进程。

背景与挑战

背景概述

在生物医学信息学领域，化学物质与蛋白质相互作用的自动识别是药物发现与开发的关键环节。ChemProt数据集诞生于2017年，由BioCreative VI国际评估研讨会组织发布，旨在为化学-蛋白质关系抽取任务提供标准化评估基准。该数据集聚焦于从科学文献中提取化学实体、蛋白质实体及其间的激活或抑制关系，其构建基于PubMed摘要，涵盖了丰富的生物医学知识。作为生物医学关系抽取领域的经典资源，ChemProt极大地推动了自然语言处理技术在药物研发、生物通路分析等应用中的发展，为后续研究奠定了坚实的数据基础。

当前挑战

ChemProt数据集所针对的化学-蛋白质关系抽取任务面临多重挑战：生物医学文本中实体名称存在大量变体、缩写及同义词，导致实体边界模糊与归一化困难；相互作用关系类型多样且语境依赖性强，模型需深入理解复杂生物过程才能准确判别。在数据集构建过程中，标注工作高度依赖领域专家知识，成本高昂且易引入主观偏差；同时，文献中的信息表达方式多样，隐含关系与否定语句的识别进一步增加了标注的一致性与完整性难度。这些挑战共同制约着关系抽取模型的性能上限与泛化能力。

常用场景

经典使用场景

在生物医学信息学领域，ChemProt数据集作为化学-蛋白质相互作用关系抽取的基准资源，其经典应用场景聚焦于训练和评估自然语言处理模型。该数据集通过标注科学文献中的化学物质与蛋白质实体及其相互作用关系，为研究者提供了结构化的语料库，使得机器学习模型能够学习识别文本中复杂的生物医学关系，从而推动关系抽取技术的发展。

解决学术问题

ChemProt数据集有效解决了生物医学文本挖掘中化学-蛋白质相互作用自动识别的核心挑战。该数据集通过提供精确标注的实体和关系实例，支持学术界开发先进的命名实体识别与关系抽取算法，弥补了传统方法在语义理解上的不足。其意义在于为生物医学文献的自动化分析建立了可靠的标准，加速了药物发现和分子机制研究的知识发现进程。

衍生相关工作

围绕ChemProt数据集，学术界衍生了一系列经典研究工作，包括基于深度学习的端到端关系抽取模型、多任务学习框架以及迁移学习策略。这些工作不仅提升了化学-蛋白质相互作用预测的性能，还推动了生物医学自然语言处理领域的范式演进，为后续更复杂的生物实体关系数据集构建提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集