Multi-task Dataset for Accelerated Discovery

github2024-07-16 更新2024-07-17 收录

下载链接：

https://github.com/GT4SD/mtl4ad

下载链接

链接失效反馈

官方服务：

资源简介：

该项目使用的多任务数据集在Christiofidelis等人的论文中描述，旨在通过多任务语言模型统一分子和文本表示。数据集包括训练和验证集，以及针对特定任务的测试集，如1H-NMR光谱到SMILES任务。数据以PARQUET格式存储，并使用Hugging Face Datasets自动加载。

The multi-task dataset utilized in this project is described in the paper by Christiofidelis et al. It aims to unify molecular and textual representations via multi-task language models. The dataset comprises training and validation sets, as well as task-specific test sets, such as the 1H-NMR spectroscopy to SMILES task. The data is stored in PARQUET format and can be automatically loaded using Hugging Face Datasets.

创建时间：

2024-07-08

原始信息汇总

多任务语言模型加速发现数据集

数据集概述

本项目使用的多任务数据集在Christiofidelis等人的论文"Unifying Molecular and Textual Representations via Multi-task Language Modelling"中描述。目标是最终整合文本和化学之外的额外模态。

训练数据集应放置在src/mtl4ad/resources/train目录下。

格式和结构

数据以PARQUET格式存储，并使用Hugging Face Datasets自动加载。以下是一个数据点的示例： json {"source": "Caption the following smile: CC(=O)NC(CC1=CC=C(C=C1)O)C(=O)O", "target": "The molecule is an N-acetyl-amino acid that is tyrosine with an amine hydrogen substituted by an acetyl group. It has a role as a human urinary metabolite. It is a tyrosine derivative, a N-acetyl-amino acid and a member of phenols. It derives from a tyrosine."}

数据集的配置和分割使用YAML格式定义，详细信息在数据集位置的单独README.md文件中。以下是配置的总结：

main_data: 训练和验证集，如Christiofidelis等人所述。
spectra_data: 带有额外光谱模态任务（1H-NMR光谱到SMILES）的训练和验证集。
backward_test, forward_test, d2s_test, s2d_test, p2a_test: 特定任务的测试集（逆合成、正合成、描述到SMILES、SMILES到描述、段落到动作），如Christiofidelis等人所述。
spectra2smi_test: 1H-NMR光谱到SMILES任务的测试集（数据管理员：Marvin Alberts）。

序列长度考虑

根据序列长度分析，源和目标提示可能会被截断至最大长度512（max_length = 512）用于Seq2Seq建模。对于CLM建模，两个提示合并后可能会被截断至最大长度1024（max_length = 1024）。在使用指令型模型时，请确保实施正确的提示格式（目前支持mistral-instruct）。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于Christiofidelis等人在论文《Unifying Molecular and Textual Representations via Multi-task Language Modelling》中提出的方法，旨在整合分子和文本表示。数据集采用PARQUET格式存储，并通过Hugging Face Datasets自动加载。其结构包括多个配置和分割，如`main_data`、`spectra_data`等，这些配置通过YAML格式详细定义。此外，数据集还考虑了序列长度，对Seq2Seq和CLM模型分别设置了512和1024的最大长度限制。

特点

该数据集的主要特点在于其多任务性质，涵盖了从分子描述到光谱数据的多种任务。其数据格式统一，便于模型训练和评估。此外，数据集支持多种模态的整合，未来计划扩展至文本和化学之外的其他领域。数据集的组织结构清晰，配置文件详细，便于用户理解和使用。

使用方法

使用该数据集时，用户需将训练数据放置在`src/mtl4ad/resources/train`目录下，并确保数据格式为PARQUET。数据集通过Hugging Face Datasets自动加载，用户可根据需要选择不同的配置和分割进行训练和评估。训练和推理脚本位于`scripts`目录下，用户可通过`train.sh`和`inference.sh`脚本启动相应的任务。此外，数据集支持DeepSpeed集成，可通过Hugging Face的`accelerate`库进行多GPU训练。

背景与挑战

背景概述

Multi-task Dataset for Accelerated Discovery（AD）数据集由Christiofidelis等人在其论文《Unifying Molecular and Textual Representations via Multi-task Language Modelling》中首次描述。该数据集旨在通过多任务学习的方式，统一分子和文本表示，以加速科学发现。其核心研究问题在于如何有效地融合不同模态的数据，如化学结构和文本描述，以提升大型语言模型（LLM）在多任务环境下的表现。该数据集的创建不仅推动了自然语言处理与化学信息学的交叉研究，还为未来的多模态数据融合提供了宝贵的资源。

当前挑战

Multi-task Dataset for Accelerated Discovery数据集在构建过程中面临多项挑战。首先，数据的多模态特性要求模型能够有效处理和融合化学结构与文本信息，这需要复杂的预处理和特征提取技术。其次，数据集的规模和多样性增加了模型训练的复杂性，特别是在处理长序列数据时，如需截断至特定长度以适应模型输入。此外，多任务学习的实现需要精细的任务配置和模型调整，以确保各任务间的平衡和协同。最后，数据集的评估和验证也是一个重要挑战，需确保各任务的性能指标能够准确反映模型的实际表现。

常用场景

经典使用场景

在加速发现领域，Multi-task Dataset for Accelerated Discovery数据集的经典使用场景主要集中在多任务语言模型的微调上。该数据集通过整合分子和文本表示，支持Seq2Seq和CLM模型的训练与评估。具体应用包括分子描述生成、SMILES字符串的自动标注以及从1H-NMR光谱到SMILES的转换等任务。这些任务不仅提升了模型的泛化能力，还为化学和生物信息学领域的研究提供了强大的工具。

实际应用

在实际应用中，Multi-task Dataset for Accelerated Discovery数据集被广泛用于药物发现和化学信息学领域。例如，通过训练多任务模型，研究人员可以高效地从分子结构生成描述性文本，或从光谱数据推断分子结构。这些应用不仅加速了新药的发现过程，还提高了化学数据的解释和利用效率，为工业界和学术界提供了宝贵的资源。

衍生相关工作

基于Multi-task Dataset for Accelerated Discovery数据集，衍生了一系列经典工作。例如，Christiofidelis等人的研究论文展示了如何通过多任务学习统一分子和文本表示，推动了相关领域的发展。此外，该数据集还启发了许多后续研究，包括使用深度学习技术进行分子描述生成、光谱数据解析等。这些工作不仅丰富了数据集的应用场景，还为未来的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集