Mol-Instructions

Name: Mol-Instructions
Creator: 浙江大学计算机科学与技术学院
Published: 2024-03-04 20:49:31
License: 暂无描述

arXiv2024-03-04 更新2024-06-21 收录

下载链接：

https://github.com/zjunlp/Mol-Instructions

下载链接

链接失效反馈

官方服务：

资源简介：

Mol-Instructions是由浙江大学计算机科学与技术学院创建的一个大规模生物分子指令数据集，旨在通过分子导向指令、蛋白质导向指令和生物分子文本指令三个核心组件，提高大型语言模型在生物分子领域的性能。数据集包含2,043,587条指令，涵盖了分子属性预测、蛋白质功能预测和生物分子文本理解等多个任务。创建过程中，数据从多个授权来源收集，并通过转换为适合特定任务的指令格式进行处理。该数据集的应用领域包括加速药物开发、揭示新的生物分子研究领域，并提升大型模型对生物学的理解能力。

Mol-Instructions is a large-scale biomolecular instruction dataset developed by the College of Computer Science and Technology, Zhejiang University. It aims to improve the performance of large language models (LLMs) in the biomolecular domain through three core components: molecule-oriented instructions, protein-oriented instructions, and biomolecular text instructions. The dataset contains 2,043,587 instruction entries, covering multiple tasks such as molecular property prediction, protein function prediction, and biomolecular text understanding. During its creation, data was collected from multiple authorized sources and processed into task-adapted instruction formats. The application scenarios of this dataset include accelerating drug development, uncovering new research directions in biomolecular fields, and enhancing the ability of large models to understand biological knowledge.

提供机构：

浙江大学计算机科学与技术学院

创建时间：

2023-06-13

搜集汇总

数据集介绍

构建方式

Mol-Instructions的构建融合了人类智慧与机器智能的协同。研究团队首先从PubChem、UniProtKB等权威生物化学数据库中收集原始生物分子数据，涵盖小分子、蛋白质及生物医学文本。针对不同数据类型，采用差异化的处理策略：对于有明确标签的数据，直接映射为指令的输入与输出；对于缺乏标注的信息，则借助数据挖掘与GPT-3.5-turbo辅助生成技术提取关键特征。特别地，为蛋白质设计任务构建了基于模板的转换机制，将UniProtKB中的结构化注释转化为文本形式的设计规范。整个数据集经过严格的质量控制，包括剔除无效化学字符串、采用SELFIES分子描述符以确保化学有效性，以及利用MMseqs工具对蛋白质序列进行去冗余处理，最终形成了涵盖超过200万条指令的高质量资源。

特点

该数据集的核心特点在于其大规模、高多样性与强专业性。Mol-Instructions囊括了超过200万条指令，横跨分子、蛋白质与生物医学文本三大核心领域，覆盖17个子任务和11种以上生物分子属性。分子部分聚焦于小分子的性质预测、化学反应与设计；蛋白质部分则深入至结构、功能预测与基于文本的蛋白质设计；文本部分专注于生物医学文献中的信息抽取与问答。数据集中生物分子描述文本的深度与广度令人瞩目，从化学物理性质到应用场景，从蛋白质功能到亚细胞定位，提供了多维度、层次化的信息视角。这种丰富性使得模型能够学习到生物分子领域错综复杂的知识图谱与规律。

使用方法

Mol-Instructions的使用方式灵活且高效，专为大型语言模型的指令微调而设计。研究人员可直接将数据集划分为训练集、验证集与测试集，采用LoRA或全参数微调策略对LLaMA等基础模型进行领域适配。数据集提供了清晰的指令结构，每条记录包含任务描述、输入与期望输出，便于模型理解并执行特定生物分子任务。使用过程中，可针对分子、蛋白质或文本三大模块分别训练专用模型，也可综合使用以提升模型的跨领域泛化能力。该数据集已在GitHub和Hugging Face平台开源，并附有详尽的使用指南，支持研究人员快速上手，在药物发现、蛋白质工程与生物医学文本挖掘等领域开展前沿探索。

背景与挑战

背景概述

Mol-Instructions是由浙江大学计算机科学与技术学院的方尹、梁晓转、张宁豫等研究人员于2023年创建的大规模生物分子指令数据集，发表于ICLR 2024。该数据集旨在弥补大型语言模型在生物分子领域专业知识的不足，核心研究问题是如何通过指令微调提升LLMs对分子、蛋白质及生物医学文本的理解与预测能力。数据集包含超过200万条指令，涵盖分子特性预测、蛋白质功能预测及生物文本信息抽取等17项子任务，为生物分子计算与药物发现提供了关键的基准资源，推动了AI在结构生物学与计算化学领域的交叉应用。

当前挑战

Mol-Instructions面临的挑战主要包括：领域问题层面，生物分子计算涉及结构生物学、计算化学与药物开发等多学科交叉，知识跨度大，且缺乏统一的生物信息学表征标准，不同应用对分子与蛋白质的表示方式各异，增加了通用数据集的构建难度。构建过程层面，生物分子数据的获取与标注成本高昂，需依赖专业湿实验与专家总结；同时，数据来源多样，需处理冗余序列（如同源蛋白）与化学无效的SMILES字符串，并采用SELFIES描述符与MMseqs聚类算法进行严格质量控制，确保数据准确性、多样性与无偏性。

常用场景

经典使用场景

在生物分子学研究中，Mol-Instructions作为大规模指令数据集，主要用于对大型语言模型进行指令微调，以提升其对小分子、蛋白质及生物医学文本的理解与生成能力。其经典使用场景涵盖分子性质预测、描述引导的分子设计、蛋白质功能预测与设计，以及生物医学文本中的信息抽取与问答任务。通过构建涵盖超过200万条指令的多样化数据，该数据集为LLMs在生物分子领域的泛化能力提供了坚实的训练基础。

实际应用

在实际应用中，Mol-Instructions可加速药物发现与化学合成过程。例如，通过描述引导的分子生成任务，研究人员能够根据特定功能需求（如靶点结合性）快速设计候选分子；蛋白质设计任务则支持基于文本指令的定制化蛋白质序列生成，助力酶工程与抗体开发。此外，生物医学文本指令使模型能够从海量文献中自动提取化学-疾病关系，提升知识挖掘效率，从而降低研发成本与周期。

衍生相关工作

Mol-Instructions的发布催生了多项衍生研究。例如，后续工作基于其分子指令模块，开发了跨模态分子理解模型（如InstructMol），并探索将生物分子语言作为新模态融入LLMs的词汇表。在蛋白质设计领域，研究者借鉴其模板转换方法，构建了针对特定功能域（如DNA结合域）的更精细指令数据集。此外，该数据集还推动了工具学习在生物分子问题中的应用，如结合化学数据库与LLMs的自动化实验规划系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集