AdaptLLM/ChemProt
收藏Hugging Face2024-07-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/AdaptLLM/ChemProt
下载链接
链接失效反馈官方服务:
资源简介:
ChemProt数据集用于ICLR 2024论文中,探讨了通过持续预训练将大规模语言模型适应到特定领域的方法。该数据集涉及医学、化学和生物学领域,主要用于文本分类、问答和零样本分类任务。数据集包含训练、验证和测试三个部分,分别存储在train.jsonl、dev.jsonl和test.jsonl文件中。
The ChemProt dataset is used in the ICLR 2024 paper, which explores the adaptation of large language models to specific domains through continual pre-training. The dataset covers the fields of medicine, chemistry, and biology, and is primarily used for text classification, question answering, and zero-shot classification tasks. The dataset includes training, validation, and test sets, stored in train.jsonl, dev.jsonl, and test.jsonl files respectively.
提供机构:
AdaptLLM
原始信息汇总
数据集概述
数据集名称
- ChemProt
数据集配置
- config_name: ChemProt
- data_files:
- split: train, path: train.jsonl
- split: validation, path: dev.jsonl
- split: test, path: test.jsonl
任务类别
- text-classification
- question-answering
- zero-shot-classification
语言
- en
标签
- medical
- chemistry
- biology
引用信息
- 原始数据集引用: bibtex @article{ChemProt, author = {Jens Kringelum and Sonny Kim Kjærulff and Søren Brunak and Ole Lund and Tudor I. Oprea and Olivier Taboureau}, title = {ChemProt-3.0: a global chemical biology diseases mapping}, journal = {Database J. Biol. Databases Curation}, volume = {2016}, year = {2016} }
搜集汇总
数据集介绍

构建方式
在生物医学信息抽取领域,ChemProt数据集作为化学-蛋白质相互作用标注的权威资源,其构建过程体现了严谨的学术规范。该数据集源自ChemProt-3.0知识库,通过系统性地从生物医学文献中提取化学物质与蛋白质之间的相互作用关系而形成。构建者采用人工标注与自动化流程相结合的方式,对大量科学文献中的实体进行识别与关系分类,确保了数据的准确性与覆盖面。数据被精心划分为训练集、验证集和测试集,并以标准化的JSON Lines格式发布,为机器学习模型提供了结构化的学习与评估基础。
特点
ChemProt数据集在生物医学自然语言处理领域展现出鲜明的专业特性。其核心内容聚焦于化学实体与蛋白质之间的复杂相互作用,涵盖了激活、抑制、结合等多种关系类型,为关系抽取与文本分类任务提供了高质量的标注语料。数据集完全采用英文构建,语言规范且专业术语密集,精准地反映了生物医学文献的表述风格。作为AdaptLLM研究项目的重要组成部分,该数据集专门用于评估大语言模型在领域特定知识上的阅读理解与提示性能,其设计紧密贴合实际科研需求,具有高度的实用性与挑战性。
使用方法
该数据集主要服务于生物医学文本挖掘与大型语言模型领域适应性的研究。使用者可通过Hugging Face的`datasets`库直接加载,便捷地获取已划分的训练、验证与测试数据。在具体应用中,研究人员可将其用于监督式微调,以提升模型在化学-蛋白质关系分类任务上的性能;亦可用于零样本或少样本提示评估,检验领域适应后的大语言模型在未见过任务上的泛化能力。数据集格式与下游任务接口设计清晰,能够无缝集成至现有的自然语言处理工作流中,为探索领域知识增强与模型能力对齐提供了关键的实验平台。
背景与挑战
背景概述
在生物医学信息学领域,化学-蛋白质相互作用(ChemProt)数据集的构建标志着对大规模生物医学文本挖掘的深入探索。该数据集最初由Kringelum等人于2016年发布,旨在系统化地映射化学物质、蛋白质与疾病之间的复杂关系,为药物发现和化学生物学研究提供结构化知识基础。作为微软研究团队在ICLR 2024上发表的AdaptLLM框架的核心评估资源之一,ChemProt数据集被用于验证通过阅读理解式持续预训练来增强大语言模型领域适应性的新范式。这一工作不仅推动了领域特定语言模型在生物医学任务上的性能边界,其提出的方法使得7B参数模型能够与50B规模的领域专家模型如BloombergGPT相竞争,彰显了高效领域适应的巨大潜力。
当前挑战
ChemProt数据集所应对的核心领域挑战在于生物医学关系抽取的复杂性,即从非结构化的科学文献中精准识别化学物质与蛋白质之间多样化的相互作用类型,这要求模型具备深厚的领域知识理解和细粒度的语义推理能力。在数据集构建过程中,研究者面临标注一致性与规模扩展的双重困难:生物医学术语的歧义性、相互作用类型的专业界定需要领域专家进行精细标注,而大规模语料的处理又需平衡标注成本与数据质量。此外,将此类结构化知识数据集适配于大语言模型的持续预训练,还需解决领域知识注入与模型通用能力保持之间的权衡,以及如何将传统的关系分类任务转化为有效的阅读理解格式以优化模型提示性能。
常用场景
经典使用场景
在生物医学信息抽取领域,ChemProt数据集作为化学-蛋白质相互作用标注的权威资源,其经典应用场景集中于关系分类任务。研究者利用该数据集训练模型,从海量科学文献中自动识别化学物质与蛋白质之间的特定相互作用类型,如激动剂、抑制剂或底物关系。这种自动化抽取能力极大地加速了药物靶点发现和机制研究的进程,为构建大规模生物医学知识图谱提供了结构化数据支撑。
解决学术问题
该数据集有效解决了生物医学自然语言处理中领域适应性不足的核心难题。传统通用模型在专业术语密集的化学文献上表现欠佳,ChemProt通过提供高质量标注数据,使研究者能够开发领域特定的关系抽取模型。这不仅提升了化学实体关系识别的准确率,更为跨模态生物医学知识融合奠定了基础,推动计算化学与药物发现研究的范式革新。
衍生相关工作
基于ChemProt数据集衍生的经典工作包括微软研究院提出的AdaptLLM框架,该框架创新性地将阅读理解范式引入领域自适应预训练。后续研究进一步扩展了多模态适应方法AdaMLLM,并在ICLR、EMNLP等顶级会议上发表系列成果。这些工作构建了从领域特定预训练到指令微调的技术体系,为生物医学大型语言模型的发展提供了重要方法论基础。
以上内容由遇见数据集搜集并总结生成



