MuMOInstruct
收藏arXiv2025-02-19 更新2025-02-21 收录
下载链接:
https://github.com/ninglab/GeLLMO
下载链接
链接失效反馈官方服务:
资源简介:
MuMOInstruct是一个高质量指令微调数据集,专注于复杂的多属性分子优化任务。该数据集由俄亥俄州立大学提供,包含多个分子属性优化任务,覆盖了药物开发中关键的分子属性,如脂溶性、药物相似性、血脑屏障透过性、致突变性、肠道吸收性和多巴胺受体D2结合亲和力。数据集通过精心设计的分子对,提供了多种属性的同时优化任务,旨在评估大型语言模型在分子优化任务中的性能。
MuMOInstruct is a high-quality instruction-tuning dataset focused on complex multi-attribute molecular optimization tasks. Provided by The Ohio State University, this dataset encompasses multiple molecular property optimization tasks covering key molecular attributes critical to drug development, including lipophilicity, drug-likeness, blood-brain barrier permeability, mutagenicity, intestinal absorption, and dopamine receptor D2 binding affinity. Leveraging well-designed molecular pairs, the dataset provides simultaneous multi-attribute optimization tasks, and is specifically designed to evaluate the performance of large language models (LLMs) on molecular optimization tasks.
提供机构:
俄亥俄州立大学计算机科学与工程学院, 俄亥俄州立大学转化数据分析和研究所, 俄亥俄州立大学生物医学信息学系, 俄亥俄州立大学药学院
创建时间:
2025-02-19
搜集汇总
数据集介绍

构建方式
MuMOInstruct数据集的构建旨在解决分子优化任务中的多属性优化难题。该数据集包含了一系列分子对,每个分子对都满足相似性约束(Tanimoto相似度大于0.6)和至少三个属性约束,使得模型能够学习到结构差异与属性改进之间的关系,并应用于新的分子优化任务。此外,MuMOInstruct还涵盖了更多的分子属性,并引入了多属性优化任务,要求同时提高至少三个属性,从而代表了复杂的药理学权衡。为了使数据集更具现实意义,MuMOInstruct中的任务被精心构建,以代表药物开发中的关键分子属性。此外,MuMOInstruct提供了多样化的自然语言指令,每个指令都使用不同的措辞来描述优化任务,这有助于防止LLMs过拟合于特定的措辞,从而使其能够泛化到未见过的指令。
特点
MuMOInstruct数据集的特点在于其针对复杂的多属性分子优化任务进行了设计。与现有的指令调整数据集不同,MuMOInstruct强调至少同时提高三个属性的任务,使得模型能够在更复杂的场景下进行学习和优化。此外,MuMOInstruct还提供了多样化的自然语言指令,每个指令都使用不同的措辞来描述优化任务,这有助于防止LLMs过拟合于特定的措辞,从而使其能够泛化到未见过的指令。这种设计使得MuMOInstruct成为评估LLMs在多属性分子优化任务中的性能的理想数据集。
使用方法
MuMOInstruct数据集的使用方法包括构建特定任务的训练对和测试集,以及实施质量控制措施。为了构建特定任务的训练对,数据集从Chen et al. (2021)提供的255K个分子对中选择了满足所有属性约束的分子对。测试集则通过从ZINC数据库中随机抽样250K个分子,并选择每个任务中属性比训练集中所有Mx的属性中位数更差的分子来构建。此外,MuMOInstruct还实施了多种质量控制措施,包括去除重复的分子、计算经验属性分数、提供多样化的指令等。这些措施有助于确保数据集的质量和可用性。
背景与挑战
背景概述
药物发现是一个昂贵且耗时的过程,成本超过20亿美元,耗时十年。在药物发现过程中,最重要的阶段之一是先导化合物优化,即将具有对药物靶点有希望的生物活性的分子优化为先导分子,同时提高多个分子性质。例如,为了治疗精神分裂症,需要优化分子使其能够穿过血脑屏障,同时平衡亲脂性、溶解性和毒性。多属性优化非常具有挑战性,因为它需要平衡多个权衡和冲突的目标。大多数计算方法都集中在单属性或双属性任务上,而多属性优化任务则很少被探索。MuMOInstruct是第一个高质量指令调整数据集,专门用于复杂的多属性分子优化任务。通过MuMOInstruct,研究人员开发了一系列用于分子优化的指令调整的大型语言模型(GeLLM3Os),这些模型在5个领域内和5个领域外的任务中表现出色,并展现出卓越的零样本泛化能力。
当前挑战
MuMOInstruct数据集面临的挑战包括:1)解决领域问题,即多属性分子优化任务;2)构建过程中遇到的挑战,例如数据集的质量控制、多样性以及如何使模型能够泛化到未见过的任务和指令。为了解决这些挑战,研究人员采用了多种策略,包括使用多样化的指令、构建包含多种分子性质的任务、以及使用零样本泛化能力来评估模型在未见过的任务上的表现。这些策略使得MuMOInstruct成为了一个高质量的数据集,并使得GeLLM3Os能够有效地处理多属性分子优化任务。
常用场景
经典使用场景
MuMOInstruct数据集主要用于评估和训练大型语言模型在分子优化任务上的性能,特别是在涉及多个分子特性的复杂优化任务中。该数据集包含了一系列具有挑战性的多属性优化任务,每个任务旨在同时改进至少三个分子特性,从而模拟现实世界中药物优化中的复杂药理学权衡。利用MuMOInstruct,研究人员开发了GeLLM3Os系列模型,这些模型通过指令调整来学习化学语义、结构-属性关系以及分子对之间的结构差异与所需属性改进之间的关联。这些模型被广泛应用于新药发现和开发领域,以加速药物发现流程,降低成本并减少时间消耗。
解决学术问题
MuMOInstruct数据集解决了现有计算方法在分子优化任务中可扩展性和泛化能力不足的问题。大多数现有方法仅限于单属性或双属性优化任务,而MuMOInstruct则着重于多属性优化任务,每个任务都要求同时改进至少三个特性。这使得MuMOInstruct成为评估和训练分子优化模型的理想数据集,为药物发现和开发领域带来了新的可能性。
衍生相关工作
MuMOInstruct数据集的发布推动了相关领域的研究,促进了GeLLM3Os系列模型的开发和应用。这些模型在分子优化任务中表现出色,为药物发现和开发领域带来了新的可能性。此外,MuMOInstruct数据集的发布还促进了其他相关数据集和模型的开发,如MolOpt-Instructions等,进一步推动了分子优化领域的研究和应用。
以上内容由遇见数据集搜集并总结生成



