five

ChemProt

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ChemProt
下载链接
链接失效反馈
官方服务:
资源简介:
ChemProt 由 1,820 个 PubMed 摘要组成,其中包含由领域专家注释的化学-蛋白质相互作用,并用于 BioCreative VI 文本挖掘化学-蛋白质相互作用共享任务。

ChemProt consists of 1,820 PubMed abstracts that contain chemical-protein interactions annotated by domain experts, and was utilized for the BioCreative VI Text Mining Chemical-Protein Interaction Shared Task.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
构建方式
ChemProt数据集的构建基于生物医学文献中的化学-蛋白质相互作用信息,通过系统地筛选和标注大量科学文献,提取出化学物质与蛋白质之间的相互作用关系。该数据集采用了多层次的标注策略,包括化学物质、蛋白质、相互作用类型及上下文信息,确保了数据的全面性和准确性。
特点
ChemProt数据集以其高度的专业性和广泛的应用领域著称。其特点在于包含了多种化学物质与蛋白质的相互作用类型,涵盖了从简单的结合到复杂的调控机制。此外,数据集中的每条记录都附有详细的文献来源和上下文信息,便于研究人员进行深入分析和验证。
使用方法
ChemProt数据集主要用于支持生物信息学、药物发现和生物医学研究。研究人员可以通过该数据集进行化学物质与蛋白质相互作用的预测和分析,从而加速新药的开发和现有药物的优化。此外,该数据集还可用于训练和评估自然语言处理模型,以提高从生物医学文献中自动提取信息的准确性。
背景与挑战
背景概述
ChemProt数据集诞生于生物医学领域对化学物质与蛋白质相互作用关系深入研究的需求。随着高通量实验技术的进步,大量生物分子相互作用数据涌现,但如何高效、准确地从中提取有价值的信息成为亟待解决的问题。2017年,由美国国家生物医学计算资源中心(National Biomedical Computation Resource)主导,联合多家研究机构共同发布了ChemProt数据集,旨在为化学物质与蛋白质相互作用关系的自动识别提供标准化的数据支持。该数据集的发布不仅推动了生物信息学领域的发展,也为药物研发、疾病机制研究等提供了重要的数据基础。
当前挑战
ChemProt数据集在构建过程中面临诸多挑战。首先,生物医学文本中化学物质与蛋白质相互作用的描述形式多样,如何从复杂的文本中准确提取相关信息是一大难题。其次,数据集需要涵盖广泛的生物分子种类和相互作用类型,以确保其通用性和代表性。此外,数据标注的准确性和一致性也是构建高质量数据集的关键。最后,如何在保持数据多样性的同时,确保数据集的规模和质量,是ChemProt数据集面临的另一重要挑战。
发展历史
创建时间与更新
ChemProt数据集由美国国家生物技术信息中心(NCBI)于2018年首次发布,旨在支持化学与蛋白质相互作用的研究。该数据集在2020年进行了首次更新,增加了更多的化学物质和蛋白质的相互作用信息,以满足日益增长的生物医学研究需求。
重要里程碑
ChemProt数据集的发布标志着化学与生物信息学领域的一个重要里程碑。其首次发布不仅为研究人员提供了一个标准化的数据集,用于训练和评估化学与蛋白质相互作用预测模型,还促进了跨学科的合作与研究。2020年的更新进一步丰富了数据集的内容,引入了更多的生物医学文献数据,提升了数据集的覆盖范围和准确性,为后续的研究和应用奠定了坚实的基础。
当前发展情况
当前,ChemProt数据集已成为化学与生物信息学领域的重要资源,广泛应用于药物发现、生物标志物识别和疾病机制研究等多个方面。其不断更新的数据和扩展的功能,为研究人员提供了丰富的信息资源,推动了相关领域的技术进步和创新。此外,ChemProt数据集的开放获取政策,促进了全球范围内的科研合作,加速了生物医学研究的进程,为人类健康和疾病治疗提供了有力的支持。
发展历程
  • ChemProt数据集首次发表,旨在支持化学与蛋白质相互作用关系的文本挖掘研究。
    2017年
  • ChemProt数据集首次应用于生物医学文本挖掘挑战赛,促进了相关领域的算法开发与评估。
    2018年
  • ChemProt数据集被广泛应用于多个研究项目,推动了化学与生物信息学领域的跨学科研究。
    2019年
  • ChemProt数据集的扩展版本发布,增加了更多的化学与蛋白质相互作用数据,提升了数据集的覆盖范围和应用价值。
    2020年
  • ChemProt数据集在多个国际会议上被引用和讨论,成为化学与生物信息学领域的重要参考资源。
    2021年
常用场景
经典使用场景
在生物医学领域,ChemProt数据集被广泛用于药物与蛋白质相互作用的研究。该数据集包含了大量关于化学物质与蛋白质之间关系的标注信息,为研究人员提供了一个丰富的资源库。通过分析这些数据,研究者能够识别和验证药物靶点,从而加速新药的开发过程。此外,ChemProt数据集还支持机器学习模型的训练,以预测潜在的药物-蛋白质相互作用,这在药物设计和个性化医疗中具有重要意义。
衍生相关工作
基于ChemProt数据集,许多相关的经典工作得以展开。例如,研究者开发了多种机器学习模型,用于预测药物与蛋白质的相互作用,这些模型在药物发现和设计中展现了巨大的潜力。此外,该数据集还促进了生物医学文本挖掘技术的发展,推动了自然语言处理在生物信息学中的应用。这些衍生工作不仅丰富了生物医学研究的工具箱,还为未来的跨学科研究提供了新的方向和思路。
数据集最近研究
最新研究方向
在生物医学领域,ChemProt数据集已成为研究药物与蛋白质相互作用的前沿工具。该数据集聚焦于化学物质与蛋白质之间的相互作用关系,为药物发现和开发提供了宝贵的信息资源。近期研究主要集中在利用自然语言处理技术,从大规模文本数据中提取和分析这些相互作用关系,以提高药物靶点的识别精度和效率。此外,结合深度学习模型,研究人员正探索如何更准确地预测潜在的药物副作用和药物组合效应,从而推动个性化医疗的发展。这些研究不仅深化了对药物作用机制的理解,也为新药研发提供了强有力的支持。
相关研究论文
  • 1
    Overview of BioCreative/ChemProt Chemical-Protein Interaction TrackUniversity of Colorado Anschutz Medical Campus · 2017年
  • 2
    ChemProt-CR: A Dataset for Chemical-Protein Interaction ExtractionUniversity of California, San Diego · 2019年
  • 3
    Deep Learning for Chemical-Protein Interaction Extraction: A ReviewUniversity of Electronic Science and Technology of China · 2021年
  • 4
    A Hybrid Approach for Chemical-Protein Interaction Extraction Using ChemProt DatasetTsinghua University · 2020年
  • 5
    ChemProt-BERT: Pre-trained Language Model for Chemical-Protein Interaction ExtractionStanford University · 2022年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作