zjunlp/Mol-Instructions

Hugging Face2024-03-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zjunlp/Mol-Instructions

下载链接

链接失效反馈

资源简介：

Mol-Instructions是一个为大型语言模型设计的开放、大规模的生物分子指令数据集。它包含三个主要部分：分子导向指令、蛋白质导向指令和生物分子文本指令。分子导向指令部分包含148,4K条指令，涉及六种任务，主要关注小分子的性质和行为。蛋白质导向指令部分包含505K条指令，涉及五种任务，旨在预测蛋白质的结构、功能和活性，并基于文本指令进行蛋白质设计。生物分子文本指令部分包含53K条指令，涉及六种信息提取和问答任务，主要用于生物信息学和化学信息学领域的NLP任务。数据集的构建采用了人机协作的方式，结合了现有的生物化学数据库和模板转换方法，并实施了严格的质量控制措施。数据集已在Hugging Face平台上发布，并附有详细的使用指南和模型权重。

提供机构：

zjunlp

原始信息汇总

数据集概述

数据集名称

🧪 Mol-Instructions

数据集描述

Mol-Instructions 是一个开放的大型生物分子指令数据集，专为大型语言模型设计。

数据集内容

数据统计

🔬 分子导向指令: 包含148,4K指令，覆盖六个任务。
🧬 蛋白质导向指令: 包含505K指令，覆盖五个任务。
🥼 生物分子文本指令: 包含53K指令，覆盖六个信息提取和问答任务。

数据构建

人机协作任务描述创建
现有数据信息提取
基于模板的生物数据文本转换
质量控制

数据发布

数据集已发布在 Hugging Face 平台，地址为 zjunlp/Mol-Instructions。

任务

分子导向

分子描述生成
描述引导的分子设计
正向反应预测
逆合成
试剂预测
性质预测

蛋白质导向

蛋白质设计
催化活性预测
蛋白质功能预测
功能描述生成
域/基序预测

生物分子文本

化学实体识别
化学-疾病交互提取
化学-蛋白质交互提取
多选题
真假题
开放问题

演示

模型权重发布

分子导向: zjunlp/llama-molinst-molecule-7b
蛋白质导向: zjunlp/llama-molinst-protein-7b
生物分子文本: zjunlp/llama-molinst-biotext-7b

模型使用指南

请参考 repository 获取详细的使用指南。

常见问题解答

模型遇到 <unk> 和重复输入时的处理
模型遇到 � 时的处理
使用相同解码参数得到不同结果的原因
答案质量不佳的可能原因

注意事项

使用和许可

数据集仅供研究使用，遵循 CC BY 4.0 许可，禁止商业使用。

限制

模型目前仅作为初步演示，处理实际生产级任务的能力有限。

搜集汇总

数据集介绍

构建方式

在生物分子信息学领域，数据集的构建需兼顾专业性与多样性。Mol-Instructions的构建采用人机协同范式，首先由领域专家精心设计任务描述，再借助GPT-3.5-turbo生成多样化指令表述。数据源选自权威生物化学数据库，通过结构化模板将分子式、蛋白质序列等专业数据转化为文本格式，并实施严格的质量控制流程，确保指令的准确性与生物合理性。

特点

该数据集涵盖小分子、蛋白质及生物分子文本三大模块，呈现多维度任务架构。分子导向指令聚焦化学性质预测与反应设计，蛋白质导向指令涉及结构功能分析与序列生成，生物分子文本指令则整合实体识别与交互抽取等自然语言处理任务。其显著特征在于将专业生物化学知识转化为结构化指令对，为大型语言模型提供了跨模态的生化语义理解基础。

使用方法

研究人员可通过HuggingFace平台直接加载数据集，并参照开源代码库配置训练环境。使用时可针对特定任务模块进行微调，如分子属性预测或蛋白质功能分析。数据集支持命令行与网页交互两种推理模式，用户可通过调整解码参数优化生成结果。需注意该数据集仅限非商业研究用途，且模型输出需结合领域知识进行验证。

背景与挑战

背景概述

在生物信息学与计算化学的交叉领域，大型语言模型的应用正逐步拓展至复杂生物分子数据的理解与生成。由浙江大学知识引擎实验室（ZJUNLP）于2023年创建的Mol-Instructions数据集，作为一项开创性工作，旨在构建一个大规模、结构化的生物分子指令数据集，以推动语言模型在分子描述生成、蛋白质设计及生物医学文本挖掘等核心任务中的能力。该数据集通过整合权威生物化学数据库，并采用人机协作的任务描述生成策略，系统涵盖了小分子与蛋白质的多样化性质预测、反应推理及功能注释，为跨模态生物分子智能研究提供了关键的数据基础，显著促进了人工智能在药物发现与生命科学中的深度融合。

当前挑战

Mol-Instructions数据集致力于应对生物分子智能中两大核心挑战：一是解决传统计算方法在跨模态生物分子理解与生成任务中的局限性，例如如何准确预测分子性质、设计功能性蛋白质序列以及从非结构化文本中提取化学实体关系；二是在数据构建过程中，面临生物分子数据的专业性与稀缺性难题，需从高度专业化的实验数据库中提取并转换结构化信息，同时确保指令的多样性与质量控制。此外，将复杂的生物分子结构转化为语言模型可处理的文本格式，并保持其化学与生物学语义的准确性，亦是数据集构建中的关键难点。

常用场景

经典使用场景

在计算化学与生物信息学领域，Mol-Instructions数据集以其大规模、结构化的生物分子指令数据，为大型语言模型在分子与蛋白质任务上的微调提供了关键资源。该数据集通过涵盖分子描述生成、性质预测、反应推断以及蛋白质功能设计等多样化任务，构建了一个跨尺度的生物分子智能处理框架。其经典应用场景聚焦于训练模型理解并生成复杂的化学结构表示，如SMILES字符串，同时支持从文本描述中逆向设计分子或预测蛋白质的催化活性，从而在药物发现与生物工程中扮演了桥梁角色。

解决学术问题

Mol-Instructions数据集有效应对了生物分子人工智能研究中数据稀缺与任务异构的挑战。它系统整合了来自权威生物化学数据库的结构化知识，通过指令模板转化为自然语言格式，解决了传统方法在跨模态对齐上的局限性。该数据集显著推进了分子与蛋白质的生成式建模、性质预测及反应机理解析等核心问题，为构建可解释、可泛化的生物分子大模型奠定了数据基础，并促进了化学与生物学领域的交叉融合。

衍生相关工作

Mol-Instructions数据集催生了一系列衍生研究，例如基于其微调的Llama-MolInst系列模型，专门针对分子、蛋白质及生物文本任务进行了优化。相关工作进一步探索了多模态生物分子表征学习、反应预测的图神经网络增强，以及指令数据在低资源场景下的迁移应用。这些进展不仅扩展了数据集的适用范围，也推动了生物计算领域向更高效、更精准的智能系统演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集