MolCap-Arena

github2024-11-04 更新2024-11-28 收录

下载链接：

https://github.com/Genentech/molcap-arena

下载链接

链接失效反馈

官方服务：

资源简介：

MolCap-Arena是一个全面的字幕基准，专注于语言增强的分子性质预测。它包含多个数据集，用于评估和比较不同的模型和字幕生成器。

MolCap-Arena is a comprehensive captioning benchmark focused on language-augmented molecular property prediction. It encompasses multiple datasets designed for evaluating and comparing various models and caption generators.

创建时间：

2024-10-31

原始信息汇总

MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction

数据集概述

MolCap-Arena 是一个全面的分子属性预测基准数据集，专注于通过语言增强的分子描述生成。该数据集旨在评估和比较不同模型的分子描述生成能力。

数据集内容

分子描述文件：包含分子的标准 SMILES 表示和相应的描述。
嵌入文件：包含分子的嵌入表示。
分割文件：包含数据集的训练、验证和测试分割。
对战文件：包含模型之间的对战结果。

数据集下载

数据集使用

安装

数据集使用两个 conda 环境：MolCapArena 用于评估，Captioner 用于生成描述。

bash conda env create -f environment.yml conda env create -f environment_captioner.yml conda activate MolCapArena pip install -e .

运行基准测试

下载并解压 battles.zip 文件。
激活 MolCapArena 环境。
运行以下脚本： bash python leaderboard_scripts/create_metrics_h2h.py python leaderboard_scripts/create_winrate_plot_h2h.py

评估新模型

创建一个新的描述文件 YOUR_NAME.csv，包含至少两个字段：SMILES 和 captions。
下载并解压 battles.zip、captions.zip、embeddings.zip 和 splits.zip 文件。
设置重要变量并运行评估脚本。

创建新描述生成器

复制现有描述生成器文件并进行修改。
激活 Captioner 环境并运行生成脚本。

添加新数据集

下载并解压 splits.zip 文件。
生成新数据集的 csv 文件并修改相关脚本。
运行描述生成器生成新描述文件。
运行 leaderboard_scripts 进行评估。

引用

如果使用该数据集，请引用以下文献： bibtex @article{edwards2024molcaparena, title={MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction}, author={Edwards, Carl and Lu, Ziqing and Hajiramezanali, Ehsan and Biancalani, Tommaso and Ji, Heng and Scalia, Gabriele}, journal={arXiv preprint arXiv:2411.00737}, url={https://arxiv.org/abs/2411.00737}, year={2024} }

排行榜

以下是生成的排行榜：

Model	Rating	95% CI	ROC-AUC	BCE Loss	Avg. Error	Average Precision	Pearson R	Spearman R	R2	MSE	MAE
BioT5_plus	1061	+3/-2	87.359	0.335	0.471	74.907	0.654	0.660	0.408	1.057	0.744
BioT5	1059	+3/-2	87.371	0.334	0.472	74.631	0.654	0.658	0.409	1.057	0.744
LlaSMol	1040	+2/-3	86.522	0.340	0.473	73.271	0.655	0.661	0.409	1.054	0.746
GPT-4o-Generic	1032	+2/-2	85.685	0.341	0.472	72.388	0.657	0.662	0.412	1.049	0.742
TextChemT5	1032	+4/-2	87.074	0.341	0.475	75.295	0.652	0.657	0.407	1.057	0.746
Gemma2-9B-Frags-Drug	1031	+3/-4	85.543	0.343	0.475	72.435	0.653	0.657	0.407	1.062	0.747
Gemma2-9B-Frags-Chem	1030	+3/-4	85.619	0.342	0.475	72.312	0.652	0.657	0.406	1.061	0.747
Llama3.1-70B-Chem	1021	+2/-2	85.431	0.344	0.475	72.529	0.653	0.656	0.408	1.056	0.746
Llama3.1-70B-Generic	1021	+1/-3	85.618	0.344	0.474	72.373	0.653	0.657	0.408	1.054	0.744
MolT5	1021	+1/-4	86.406	0.340	0.475	75.251	0.652	0.655	0.406	1.064	0.748
Gemma2-9B-Frags-Generic	1020	+3/-3	85.550	0.342	0.476	72.455	0.651	0.657	0.406	1.064	0.749
Llama3.1-70B-Drug	1020	+1/-2	85.594	0.343	0.471	72.430	0.655	0.660	0.412	1.042	0.740
Llama3.1-405B-Generic	1020	+3/-1	85.469	0.342	0.471	72.048	0.658	0.663	0.416	1.038	0.738
Llama3-70B-Drug	1017	+2/-3	85.392	0.343	0.472	72.179	0.656	0.660	0.413	1.047	0.741
MistralNeMo-12B-Frags-Generic	1017	+2/-1	85.376	0.345	0.473	72.022	0.653	0.658	0.408	1.051	0.742
Llama3.1-70B-Bio	1016	+2/-2	85.238	0.347	0.473	72.074	0.656	0.661	0.411	1.047	0.741
Gemma2-27B-Generic	1015	+3/-3	85.254	0.343	0.471	72.152	0.654	0.661	0.412	1.043	0.739
Llama3-70B-Chem	1014	+2/-4	85.355	0.344	0.473	72.181	0.655	0.659	0.409	1.053	0.742
Gemma2-27B-Chem	1013	+1/-3	85.223	0.345	0.474	72.057	0.653	0.659	0.409	1.051	0.743
MistralNeMo-12B-Frags-Chem	1012	+2/-3	85.746	0.343	0.472	72.320	0.656	0.660	0.411	1.046	0.741
GPT-4o-Frags-Generic	1012	+3/-2	85.510	0.343	0.475	72.210	0.654	0.658	0.408	1.054	0.745
Llama3-8B-Task	1009	+1/-2	85.414	0.344	0.477	72.182	0.652	0.656	0.406	1.063	0.748
MistralNeMo-12B-Frags-Drug	1008	+3/-2	85.731	0.344	0.473	72.436	0.654	0.659	0.410	1.046	0.742
Llama3-70B-Generic	1008	+3/-2	85.108	0.345	0.475	71.920	0.653	0.656	0.406	1.061	0.746
Gemma2-9B-Frags-Bio	1006	+3/-3	85.284	0.346	0.477	72.020	0.651	0.657	0.405	1.065	0.750
Llama3.1-70B-Quant	1006	+3/-3	85.312	0.344	0.474	72.163	0.653	0.660	0.408	1.052	0.743
Llama3.1-405B-Frags-Generic	1005	+2/-2	85.482	0.344	0.476	72.682	0.653	0.657	0.405	1.065	0.749
Gemma2-9B-Chem	1004	+1/-2	85.455	0.343	0.474	72.112	0.653	0.657	0.409	1.057	0.745
Llama3-70B-Bio	1003	+1/-2	85.479	0.344	0.476	72.253	0.651	0.656	0.403	1.066	0.748
Llama3-70B-Frags-Generic	1003	+3/-3	85.780	0.342	0.478	72.693	0.650	0.655	0.403	1.072	0.751
Llama3.1-8B-Drug	1003	+4/-2	85.088	0.345	0.475	72.004	0.654	0.657	0.410	1.052	0.745
Llama3.1-70B-Frags-Generic	1001	+3/-2	85.580	0.342	0.477	72.238	0.650	0.656	0.403	1.071	0.750
Llama3.1-70B-Frags-Chem	1001

搜集汇总

数据集介绍

构建方式

MolCap-Arena数据集的构建基于语言增强的分子属性预测技术，通过整合多种分子数据源和语言模型，生成详细的分子描述。数据集包括多个子集，如BBBP、BACE、ClinTox等，每个子集包含分子结构和相应的描述信息。构建过程中，首先收集并标准化分子数据，随后利用预训练的语言模型生成描述，最后通过多模态SVM训练和头对头比较，确保描述的准确性和多样性。

特点

MolCap-Arena数据集的显著特点在于其综合性与多样性。该数据集不仅涵盖了多种分子属性预测任务，还通过语言增强技术生成了丰富的分子描述，增强了数据的可解释性。此外，数据集支持多模态学习，允许研究者结合分子结构和语言信息进行更深入的分析。数据集的构建过程经过严格的质量控制，确保了描述的准确性和可靠性。

使用方法

使用MolCap-Arena数据集时，用户首先需下载相关文件，包括battles、captions、embeddings和splits。随后，用户可以通过设置环境变量和运行特定的Python脚本，进行模型训练、嵌入提取、单描述预测器训练以及头对头比较。为了评估新模型，用户需创建一个新的CSV文件，包含分子SMILES和描述，并遵循预定的格式。此外，用户还可以创建新的描述生成器或添加新的数据集，但需遵循特定的步骤和修改相关脚本。

背景与挑战

背景概述

MolCap-Arena数据集由Edwards等人于2024年创建，旨在为语言增强的分子属性预测提供一个全面的标注基准。该数据集的核心研究问题是如何利用自然语言描述来提升分子属性预测的准确性和效率。主要研究人员包括Carl Edwards、Ziqing Lu、Ehsan Hajiramezanali等，他们来自多个知名机构，如哈佛大学和麻省理工学院。MolCap-Arena的推出对分子生物学和化学信息学领域产生了深远影响，为研究人员提供了一个标准化的平台，以评估和比较不同模型的性能。

当前挑战

MolCap-Arena数据集面临的挑战主要集中在两个方面。首先，构建过程中需要处理大量复杂的分子数据，并确保标注的准确性和一致性，这要求高度的专业知识和精细的数据管理。其次，该数据集旨在解决的领域问题是语言增强的分子属性预测，这一问题本身具有高度复杂性，涉及多模态数据的融合和处理，以及如何有效地将自然语言描述与分子结构信息相结合。此外，数据集的扩展性和兼容性也是一个重要挑战，因为需要不断更新和适应新的分子数据和模型评估需求。

常用场景

经典使用场景

在分子生物学领域，MolCap-Arena数据集的经典使用场景主要集中在语言增强的分子属性预测任务中。该数据集通过整合分子结构与自然语言描述，为研究人员提供了一个全面的基准，用于评估和比较不同模型的性能。具体而言，研究人员可以利用该数据集进行模型训练、嵌入提取、多模态支持向量机训练以及模型之间的头对头比较，从而优化分子属性预测的准确性和效率。

解决学术问题

MolCap-Arena数据集解决了分子生物学领域中一个关键的学术问题，即如何有效地结合分子结构信息与自然语言描述来提升分子属性预测的准确性。传统的分子属性预测方法往往依赖于单一的分子结构信息，而忽略了语言描述中蕴含的丰富语义信息。通过提供一个包含分子结构与语言描述的综合数据集，MolCap-Arena为研究人员提供了一个新的研究方向，推动了多模态学习在分子生物学中的应用，具有重要的学术意义和影响。

衍生相关工作

MolCap-Arena数据集的发布催生了多项相关研究工作，推动了分子生物学与自然语言处理领域的交叉研究。例如，基于该数据集，研究人员开发了多种新型的多模态分子描述符生成模型，显著提升了分子属性预测的准确性。此外，该数据集还激发了关于如何更有效地融合分子结构与语言描述的研究，促进了多模态学习在分子生物学中的应用。这些衍生工作不仅丰富了分子生物学的研究方法，也为相关领域的技术进步提供了新的思路和方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集