Mol-Instructions

github2024-05-05 更新2024-05-31 收录

下载链接：

https://github.com/zjunlp/Mol-Instructions

下载链接

链接失效反馈

官方服务：

资源简介：

一个开放的、大规模的生物分子指令数据集，专为大型语言模型设计。

An open, large-scale biomolecular instruction dataset, specifically designed for large language models.

创建时间：

2023-04-12

原始信息汇总

数据集概述

数据集名称

名称: Mol-Instructions
描述: 一个开放的、大规模的生物分子指令数据集，用于大型语言模型。

数据集内容

组成部分:
- 🔬 分子导向指令: 涉及小分子，涵盖148,4K指令，分布在六个任务中。
- 🧬 蛋白质导向指令: 涉及蛋白质，包含505K指令，分布在五个任务类别中。
- 🥼 生物分子文本指令: 主要针对生物信息学和化学信息学领域的NLP任务，包含53K指令，涉及六个信息提取和问答任务。

数据构建

方法:
- 🤖️ 人机协作任务描述创建: 使用人类编写的任务描述作为GPT-3.5-turbo的输入。
- 📖 现有数据的信息提取: 从权威生物化学数据库中提取数据。
- 📜 基于模板的生物数据文本转换: 设计多种模板将结构化数据转换为文本格式。
- ✅ 质量控制: 实施严格的质量控制措施确保数据准确性。

数据发布

发布平台: Hugging Face
链接: zjunlp/Mol-Instructions

数据集任务

分子导向: 包括分子描述生成、描述引导的分子设计等六个任务。
蛋白质导向: 包括蛋白质设计、催化活性预测等五个任务。
生物分子文本: 包括化学实体识别、化学-疾病交互提取等六个任务。

模型权重发布

发布平台: Hugging Face
模型:
- 🔬 分子导向: zjunlp/llama-molinst-molecule-7b
- 🧬 蛋白质导向: zjunlp/llama-molinst-protein-7b
- 🥼 生物分子文本: zjunlp/llama-molinst-biotext-7b

模型使用指南

使用工具: Gradio
使用步骤:
- 安装Gradio
- 配置参数
- 运行generate.sh文件

量化实验

目的: 调查Mol-Instructions是否能增强LLM对生物分子的理解
详细设置和分析: 参考论文
评估代码: GitHub链接

搜集汇总

数据集介绍

构建方式

Mol-Instructions数据集的构建过程融合了人机协作与数据转换的精妙结合。首先，通过人工精心设计的任务描述，结合GPT-3.5-turbo模型的生成能力，确保了任务指令的多样性与实用性。其次，从权威的生物化学数据库中提取信息，经过模板化的处理，将结构化的生物数据转化为文本格式，从而为蛋白质设计提供了详尽的指导。最后，通过严格的质量控制措施，确保了数据的高精度与可靠性，为模型的训练提供了坚实的基础。

特点

Mol-Instructions数据集以其多维度的任务覆盖和高质量的数据特性而著称。该数据集涵盖了分子、蛋白质及生物分子文本三大领域，分别包含148,4K、505K和53K条指令，任务类型丰富多样，从分子描述生成到蛋白质功能预测，再到化学实体识别，全面满足了生物信息学和化学信息学的需求。此外，数据集通过人机协作和模板化处理，确保了数据的多样性和准确性，为大规模语言模型在生物分子领域的应用提供了强有力的支持。

使用方法

Mol-Instructions数据集的使用方法简便而灵活。用户可以通过Hugging Face平台直接下载数据集，并结合提供的模型权重进行训练或推理。对于分子和生物分子文本任务，用户可以设置参数并运行generate.sh脚本，通过命令行或Web界面进行交互式操作。对于蛋白质任务，需额外执行特定步骤以确保模型正确加载。数据集的多样性和高质量数据使其适用于多种生物分子相关的自然语言处理任务，为研究者和开发者提供了丰富的资源和便捷的使用体验。

背景与挑战

背景概述

Mol-Instructions数据集是由浙江大学知识图谱与语义计算实验室（ZJU-NLP）于2023年发布的，旨在为大规模语言模型提供一个开放且广泛的生物分子指令数据集。该数据集的核心研究问题是如何通过自然语言指令来指导分子和蛋白质的设计与功能预测，从而推动生物信息学和化学信息学领域的发展。Mol-Instructions数据集包含了三个主要部分：分子导向指令、蛋白质导向指令和生物分子文本指令，涵盖了从分子描述生成到蛋白质功能预测等多种任务。该数据集的发布不仅为研究人员提供了一个强大的工具，还为生物分子领域的自动化研究和药物设计提供了新的可能性。

当前挑战

Mol-Instructions数据集在构建过程中面临了多个挑战。首先，生物分子数据的复杂性和多样性使得任务指令的生成和质量控制变得尤为困难。其次，将结构化的生物数据转换为自然语言文本格式需要设计多样化的模板，以确保生成的指令能够准确反映生物分子的特性。此外，数据集的构建还依赖于人机协作，通过GPT-3.5-turbo等模型生成任务描述，这要求模型具备高度的专业性和准确性。最后，数据集的发布和使用也面临隐私和伦理问题，特别是在涉及敏感生物数据时，如何确保数据的安全性和合规性是一个重要的挑战。

常用场景

经典使用场景

Mol-Instructions数据集在生物分子领域中具有广泛的应用场景，特别是在分子设计、蛋白质功能预测以及生物分子文本处理等方面。该数据集通过提供详细的指令，帮助研究人员在分子描述生成、反应预测、蛋白质设计等任务中取得突破。例如，研究人员可以利用该数据集进行分子结构的生成与优化，预测蛋白质的催化活性，以及从生物文本中提取化学实体与疾病关系，从而推动生物医学研究的进展。

衍生相关工作

Mol-Instructions数据集的发布催生了一系列相关的经典工作。例如，基于该数据集的分子生成模型在药物设计与优化中取得了显著进展，推动了分子生成领域的研究。同时，蛋白质功能预测与设计的相关研究也得到了极大的促进，特别是在蛋白质工程与生物催化领域。此外，Mol-Instructions在生物文本处理中的应用，为化学与生物信息学的跨学科研究提供了新的思路，推动了信息提取与知识图谱构建等技术的发展。

数据集最近研究