SMolInstruct

github2024-02-20 更新2024-05-31 收录

下载链接：

https://github.com/OSU-NLP-Group/LLM4Chem

下载链接

链接失效反馈

官方服务：

资源简介：

SMolInstruct is a large-scale, comprehensive, and high-quality instruction tuning dataset crafted for chemistry. It centers around small molecules, and contains 14 meticulously selected tasks and over 3M samples.

SMolInstruct是一款专为化学领域构建的大规模、全面且高质量的指令微调（instruction tuning）数据集。该数据集以小分子为核心研究对象，包含14项经精心筛选的任务与超300万条样本。

创建时间：

2024-02-14

原始信息汇总

数据集概述

数据集名称

名称: SMolInstruct
来源: https://huggingface.co/datasets/osunlp/SMolInstruct

数据集内容

任务类型: 包含4种类型共14个基本任务。
任务详情:
- Name Conversion: 包括IUPAC到分子式、IUPAC到SMILES、SMILES到分子式、SMILES到IUPAC的转换。
- Property Prediction: 涉及ESOL、LIPO、BBBP、Clintox、HIV、SIDER等属性预测。
- Molecule Description: 包括分子描述和分子生成。
- Chemical Reaction: 包括正向合成和逆向合成。

数据集使用

模型训练: 可通过命令行进行模型微调，例如使用Mistral-7B模型。
模型查询: 提供Python代码示例，用于查询模型并获取化学相关问题的答案。
数据集评估: 描述了从生成响应到计算评估指标的完整评估流程。

数据集引用

引用格式:

@article{yu2024llasmol, title={LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset}, author={Botao Yu and Frazier N. Baker and Ziqi Chen and Xia Ning and Huan Sun}, journal={arXiv preprint arXiv:2402.09391}, year={2024} }

搜集汇总

数据集介绍

构建方式

SMolInstruct数据集的构建基于化学领域中的14种基本任务，涵盖了从名称转换到化学反应等多个方面。数据集通过精心设计的查询和响应格式，确保了任务的多样性和复杂性。每个任务的示例均经过严格筛选和验证，以确保数据的高质量和一致性。此外，数据集的构建过程中还考虑了不同化学表示法（如SMILES、IUPAC名称和分子式）之间的转换，从而增强了数据集的实用性和广泛适用性。

使用方法

使用SMolInstruct数据集进行模型训练和评估时，用户首先需要克隆数据集的GitHub仓库，并进入相应的文件夹。随后，可以通过提供的Python脚本进行数据集的加载和处理。例如，使用`LlaSMolGeneration`类可以方便地查询模型并获取化学相关的信息。此外，数据集还提供了详细的评估步骤，包括生成响应、提取预测答案和计算评估指标，这些步骤均通过命令行脚本实现，便于用户进行系统的模型评估和优化。

背景与挑战

背景概述

SMolInstruct数据集是由俄亥俄州立大学自然语言处理小组（OSU-NLP Group）创建的，旨在推动大型语言模型在化学领域的应用。该数据集于2024年发布，主要研究人员包括Botao Yu、Frazier N. Baker、Ziqi Chen、Xia Ning和Huan Sun。其核心研究问题是如何通过大规模、高质量的指令调优数据集，提升大型语言模型在化学任务中的表现。SMolInstruct数据集涵盖了14种基本任务，包括名称转换、性质预测、分子描述和化学反应等，对化学信息学和人工智能交叉领域的研究具有重要影响。

当前挑战

SMolInstruct数据集在构建过程中面临多项挑战。首先，化学领域的专业知识要求高，数据集的创建需要精确的化学信息和复杂的分子结构表示。其次，确保数据集的高质量和全面性，以覆盖广泛的化学任务，是一项艰巨的任务。此外，如何在大型语言模型中有效利用这些化学数据，进行指令调优，以实现准确的化学信息处理和预测，也是当前研究的重要挑战。这些挑战不仅涉及技术层面的算法优化，还包括对化学领域知识的深入理解和应用。

常用场景

经典使用场景

在化学领域，SMolInstruct数据集的经典使用场景主要集中在化学名称转换、性质预测、分子描述和化学反应预测等方面。例如，通过数据集中的任务，研究人员可以实现从IUPAC名称到分子公式的转换，预测分子的溶解度、脂水分配系数等物理化学性质，以及生成和描述分子结构。这些任务不仅有助于化学信息的自动化处理，还为新药发现和材料设计提供了强大的工具。

解决学术问题

SMolInstruct数据集通过提供大规模、高质量的指令调优数据，解决了化学领域中多个重要的学术研究问题。例如，它帮助解决了化学名称标准化的问题，使得不同化学表示方法之间的转换更加准确和高效。此外，数据集还支持分子性质的预测，这对于理解分子行为和设计新型化合物具有重要意义。这些解决方案不仅提升了化学研究的效率，还推动了相关领域的技术进步。

实际应用

在实际应用中，SMolInstruct数据集被广泛用于药物发现、材料科学和环境化学等领域。例如，在新药研发过程中，研究人员可以利用数据集预测候选药物的物理化学性质，评估其生物活性和毒性，从而加速药物筛选和优化。在材料科学中，数据集帮助科学家设计和合成具有特定性质的新材料。此外，环境化学领域也利用该数据集进行污染物性质的预测和环境影响的评估。

数据集最近研究