MOLCAP-ARENA

Name: MOLCAP-ARENA
Creator: 基因泰克
Published: 2024-11-02 01:03:16
License: 暂无描述

arXiv2024-11-02 更新2024-11-06 收录

下载链接：

https://github.com/Genentech/molcap-arena

下载链接

链接失效反馈

官方服务：

资源简介：

MOLCAP-ARENA是由基因泰克公司创建的一个全面的大规模分子描述数据集，旨在通过语言增强的分子属性预测任务中提供基准测试。该数据集包含了多种分子描述和属性预测任务，如毒性、生物活性等。数据集的创建过程结合了图神经网络（GNN）和生物链接BERT模型（bioLinkBERT-base），通过融合分子和文本信息来增强分子表示。MOLCAP-ARENA的应用领域主要集中在计算药物发现中的分子属性预测，旨在提高现有模型的性能和解释性。

MOLCAP-ARENA is a comprehensive large-scale molecular description dataset developed by Genentech, which aims to provide a benchmark for language-augmented molecular property prediction tasks. This dataset covers multiple molecular descriptions and property prediction tasks including toxicity, bioactivity and others. Its construction process combines Graph Neural Networks (GNN) and bioLinkBERT-base model, enhancing molecular representations by fusing molecular and textual information. The main application scenarios of MOLCAP-ARENA are molecular property prediction in computational drug discovery, with the goal of improving the performance and interpretability of existing models.

提供机构：

基因泰克

创建时间：

2024-11-02

原始信息汇总

MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction

数据集概述

MolCap-Arena 是一个全面的分子属性预测基准，专注于通过语言增强的分子描述生成。该数据集旨在评估和比较不同模型的分子描述生成能力。

数据集内容

分子描述文件：包含分子描述的CSV文件，格式包括SMILES和captions。
嵌入文件：包含分子嵌入的文件。
分割文件：用于训练和评估的分子数据分割。
对战文件：用于模型之间对战的文件。

数据集下载

数据集使用

安装

数据集使用两个conda环境：MolCapArena用于评估，Captioner用于生成描述。

运行基准测试

下载并解压battles.zip文件。
激活MolCapArena环境。
运行基准测试脚本。

评估新模型

创建新的描述文件。
下载并解压相关文件。
设置重要变量。
运行评估流程。

创建新描述生成器

复制现有描述生成器文件。
修改相关脚本以包含新模型。
运行描述生成脚本。

添加新数据集

下载并解压splits.zip文件。
生成新数据集的CSV文件。
修改相关脚本以包含新数据集。
运行描述生成和基准测试脚本。

引用

如果使用该数据集，请引用以下文献： bibtex @article{edwards2024molcaparena, title={MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction}, author={Edwards, Carl and Lu, Ziqing and Hajiramezanali, Ehsan and Biancalani, Tommaso and Ji, Heng and Scalia, Gabriele}, journal={arXiv preprint arXiv:2411.00737}, url={https://arxiv.org/abs/2411.00737}, year={2024} }

排行榜

以下是生成的排行榜，包含不同模型的评分和性能指标。

Model	Rating	95% CI	ROC-AUC	BCE Loss	Avg. Error	Average Precision	Pearson R	Spearman R	R2	MSE	MAE
BioT5_plus	1061	+3/-2	87.359	0.335	0.471	74.907	0.654	0.660	0.408	1.057	0.744
BioT5	1059	+3/-2	87.371	0.334	0.472	74.631	0.654	0.658	0.409	1.057	0.744
LlaSMol	1040	+2/-3	86.522	0.340	0.473	73.271	0.655	0.661	0.409	1.054	0.746
GPT-4o-Generic	1032	+2/-2	85.685	0.341	0.472	72.388	0.657	0.662	0.412	1.049	0.742
TextChemT5	1032	+4/-2	87.074	0.341	0.475	75.295	0.652	0.657	0.407	1.057	0.746
Gemma2-9B-Frags-Drug	1031	+3/-4	85.543	0.343	0.475	72.435	0.653	0.657	0.407	1.062	0.747
Gemma2-9B-Frags-Chem	1030	+3/-4	85.619	0.342	0.475	72.312	0.652	0.657	0.406	1.061	0.747
Llama3.1-70B-Chem	1021	+2/-2	85.431	0.344	0.475	72.529	0.653	0.656	0.408	1.056	0.746
Llama3.1-70B-Generic	1021	+1/-3	85.618	0.344	0.474	72.373	0.653	0.657	0.408	1.054	0.744
MolT5	1021	+1/-4	86.406	0.340	0.475	75.251	0.652	0.655	0.406	1.064	0.748
Gemma2-9B-Frags-Generic	1020	+3/-3	85.550	0.342	0.476	72.455	0.651	0.657	0.406	1.064	0.749
Llama3.1-70B-Drug	1020	+1/-2	85.594	0.343	0.471	72.430	0.655	0.660	0.412	1.042	0.740
Llama3.1-405B-Generic	1020	+3/-1	85.469	0.342	0.471	72.048	0.658	0.663	0.416	1.038	0.738
Llama3-70B-Drug	1017	+2/-3	85.392	0.343	0.472	72.179	0.656	0.660	0.413	1.047	0.741
MistralNeMo-12B-Frags-Generic	1017	+2/-1	85.376	0.345	0.473	72.022	0.653	0.658	0.408	1.051	0.742
Llama3.1-70B-Bio	1016	+2/-2	85.238	0.347	0.473	72.074	0.656	0.661	0.411	1.047	0.741
Gemma2-27B-Generic	1015	+3/-3	85.254	0.343	0.471	72.152	0.654	0.661	0.412	1.043	0.739
Llama3-70B-Chem	1014	+2/-4	85.355	0.344	0.473	72.181	0.655	0.659	0.409	1.053	0.742
Gemma2-27B-Chem	1013	+1/-3	85.223	0.345	0.474	72.057	0.653	0.659	0.409	1.051	0.743
MistralNeMo-12B-Frags-Chem	1012	+2/-3	85.746	0.343	0.472	72.320	0.656	0.660	0.411	1.046	0.741
GPT-4o-Frags-Generic	1012	+3/-2	85.510	0.343	0.475	72.210	0.654	0.658	0.408	1.054	0.745
Llama3-8B-Task	1009	+1/-2	85.414	0.344	0.477	72.182	0.652	0.656	0.406	1.063	0.748
MistralNeMo-12B-Frags-Drug	1008	+3/-2	85.731	0.344	0.473	72.436	0.654	0.659	0.410	1.046	0.742
Llama3-70B-Generic	1008	+3/-2	85.108	0.345	0.475	71.920	0.653	0.656	0.406	1.061	0.746
Gemma2-9B-Frags-Bio	1006	+3/-3	85.284	0.346	0.477	72.020	0.651	0.657	0.405	1.065	0.750
Llama3.1-70B-Quant	1006	+3/-3	85.312	0.344	0.474	72.163	0.653	0.660	0.408	1.052	0.743
Llama3.1-405B-Frags-Generic	1005	+2/-2	85.482	0.344	0.476	72.682	0.653	0.657	0.405	1.065	0.749
Gemma2-9B-Chem	1004	+1/-2	85.455	0.343	0.474	72.112	0.653	0.657	0.409	1.057	0.745
Llama3-70B-Bio	1003	+1/-2	85.479	0.344	0.476	72.253	0.651	0.656	0.403	1.066	0.748
Llama3-70B-Frags-Generic	1003	+3/-3	85.780	0.342	0.478	72.693	0.650	0.655	0.403	1.072	0.751
Llama3.1-8B-Drug	1003	+4/-2	85.088	0.345	0.475	72.004	0.654	0.657	0.410	1.052	0.745
Llama3.1-70B-Frags-Generic	1001	+3/-2	85.580	0.342	0.477	72.238	0.650	0.656	0.403	1.071	0.750
Llama3.1-70B-Frags-Chem	1001	+3/-2	85.512	0.343	0.477	72.306	0.651	0.657	0.404	1.070	0.749
Gemma2-27B-Frags-Drug	1001	+2/-4	85.644	0.342	0.477

搜集汇总

数据集介绍

构建方式

MOLCAP-ARENA数据集是通过评估超过二十种大型语言模型（LLMs）在分子属性预测任务中的表现而构建的。这些LLMs包括通用和特定领域的分子描述器。为了实现这一目标，研究人员引入了一个新颖的基于战斗的评级系统，通过比较不同描述器在预测任务中的表现来评估其能力。

特点

MOLCAP-ARENA数据集的特点在于其全面性，它涵盖了多种预测任务，并使用了多种LLMs进行比较。此外，该数据集采用了新颖的基于战斗的评级系统，能够更直接和全面地比较不同描述器的表现。此外，该数据集还提供了分子描述和统一的代码库，方便未来的比较和研究。

使用方法

MOLCAP-ARENA数据集的使用方法包括下载代码、资源和数据，然后可以使用提供的代码库和模型进行分子属性预测任务。用户可以选择不同的描述器进行预测，并通过基于战斗的评级系统来评估其表现。此外，用户还可以使用提供的分子描述来帮助理解和解释模型的预测结果。

背景与挑战

背景概述

MOLCAP-ARENA是一个旨在评估大型语言模型（LLM）在分子属性预测中的作用的基准数据集。该数据集由伊利诺伊大学和Genentech的研究人员创建，并于2024年11月发布。MOLCAP-ARENA的核心研究问题是探究LLM提取的知识如何增强分子表示，从而提高复杂预测任务（如毒性预测）的性能。该数据集的发布为相关领域的研究提供了重要的资源，并促进了LLM在生物分子建模中的应用。

当前挑战

MOLCAP-ARENA数据集面临的挑战包括：1) 如何有效地评估LLM生成的分子描述信息对真实世界分子建模任务（如毒性预测）的贡献；2) 如何构建一个公平且全面的基准，以比较不同LLM模型在不同任务中的表现；3) 如何解决LLM模型在分子描述任务中的模糊性，并确保评估指标的准确性。

常用场景

经典使用场景

MOLCAP-ARENA数据集主要用于评估语言增强型分子性质预测中分子描述的有效性。该数据集包含大规模的分子描述和统一代码库，包括数十个模型，方便未来在分子建模领域的比较研究。通过分析现有模型，包括特定领域的描述器和最先进的LLM，研究人员可以深入了解描述符捕获相关生化知识的能力。MOLCAP-ARENA为评估分子描述符提供了新的方法，超越了传统的基于字符串的度量标准，有助于推动分子建模和自然语言处理领域的研究。

解决学术问题

MOLCAP-ARENA数据集解决了分子描述评价的难题。传统的基于机器翻译的度量标准，如BLEU和ROUGE分数，依赖于真实描述，因此受到分子描述的多样性限制。MOLCAP-ARENA引入了一个新的基于战斗的评分系统，直接比较不同描述源在特定任务上的表现，提供了一个更全面、更直接的评价方法。此外，该数据集还提供了对LLM提取知识的实用性的评估，以及如何将LLM驱动的见解应用于实际的分子建模任务。

衍生相关工作

MOLCAP-ARENA数据集衍生了许多相关工作。例如，研究人员利用该数据集评估了不同LLM和分子描述符在分子性质预测任务中的性能，发现特定领域的描述器和大规模通用LLM均表现出良好的性能。此外，该数据集还推动了分子描述评价方法的研究，例如基于战斗的评分系统和多任务学习模型。MOLCAP-ARENA为分子建模和自然语言处理领域的研究提供了新的方向，有助于推动相关技术的发展和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集