Multi-task Dataset for Accelerated Discovery
收藏多任务语言模型加速发现数据集
数据集概述
本项目使用的多任务数据集在Christiofidelis等人的论文"Unifying Molecular and Textual Representations via Multi-task Language Modelling"中描述。目标是最终整合文本和化学之外的额外模态。
训练数据集应放置在src/mtl4ad/resources/train目录下。
格式和结构
数据以PARQUET格式存储,并使用Hugging Face Datasets自动加载。以下是一个数据点的示例:
json
{"source": "Caption the following smile: CC(=O)NC(CC1=CC=C(C=C1)O)C(=O)O",
"target": "The molecule is an N-acetyl-amino acid that is tyrosine with an amine hydrogen substituted by an acetyl group. It has a role as a human urinary metabolite. It is a tyrosine derivative, a N-acetyl-amino acid and a member of phenols. It derives from a tyrosine."}
数据集的配置和分割使用YAML格式定义,详细信息在数据集位置的单独README.md文件中。以下是配置的总结:
main_data: 训练和验证集,如Christiofidelis等人所述。spectra_data: 带有额外光谱模态任务(1H-NMR光谱到SMILES)的训练和验证集。backward_test,forward_test,d2s_test,s2d_test,p2a_test: 特定任务的测试集(逆合成、正合成、描述到SMILES、SMILES到描述、段落到动作),如Christiofidelis等人所述。spectra2smi_test: 1H-NMR光谱到SMILES任务的测试集(数据管理员:Marvin Alberts)。
序列长度考虑
根据序列长度分析,源和目标提示可能会被截断至最大长度512(max_length = 512)用于Seq2Seq建模。对于CLM建模,两个提示合并后可能会被截断至最大长度1024(max_length = 1024)。在使用指令型模型时,请确保实施正确的提示格式(目前支持mistral-instruct)。




