MOLCAP-ARENA
收藏arXiv2024-11-02 更新2024-11-06 收录
下载链接:
https://github.com/Genentech/molcap-arena
下载链接
链接失效反馈官方服务:
资源简介:
MOLCAP-ARENA是由基因泰克公司创建的一个全面的大规模分子描述数据集,旨在通过语言增强的分子属性预测任务中提供基准测试。该数据集包含了多种分子描述和属性预测任务,如毒性、生物活性等。数据集的创建过程结合了图神经网络(GNN)和生物链接BERT模型(bioLinkBERT-base),通过融合分子和文本信息来增强分子表示。MOLCAP-ARENA的应用领域主要集中在计算药物发现中的分子属性预测,旨在提高现有模型的性能和解释性。
MOLCAP-ARENA is a comprehensive large-scale molecular description dataset developed by Genentech, which aims to provide a benchmark for language-augmented molecular property prediction tasks. This dataset covers multiple molecular descriptions and property prediction tasks including toxicity, bioactivity and others. Its construction process combines Graph Neural Networks (GNN) and bioLinkBERT-base model, enhancing molecular representations by fusing molecular and textual information. The main application scenarios of MOLCAP-ARENA are molecular property prediction in computational drug discovery, with the goal of improving the performance and interpretability of existing models.
提供机构:
基因泰克
创建时间:
2024-11-02
原始信息汇总
MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction
数据集概述
MolCap-Arena 是一个全面的分子属性预测基准,专注于通过语言增强的分子描述生成。该数据集旨在评估和比较不同模型的分子描述生成能力。
数据集内容
- 分子描述文件:包含分子描述的CSV文件,格式包括SMILES和captions。
- 嵌入文件:包含分子嵌入的文件。
- 分割文件:用于训练和评估的分子数据分割。
- 对战文件:用于模型之间对战的文件。
数据集下载
数据集使用
安装
数据集使用两个conda环境:MolCapArena用于评估,Captioner用于生成描述。
运行基准测试
- 下载并解压battles.zip文件。
- 激活MolCapArena环境。
- 运行基准测试脚本。
评估新模型
- 创建新的描述文件。
- 下载并解压相关文件。
- 设置重要变量。
- 运行评估流程。
创建新描述生成器
- 复制现有描述生成器文件。
- 修改相关脚本以包含新模型。
- 运行描述生成脚本。
添加新数据集
- 下载并解压splits.zip文件。
- 生成新数据集的CSV文件。
- 修改相关脚本以包含新数据集。
- 运行描述生成和基准测试脚本。
引用
如果使用该数据集,请引用以下文献: bibtex @article{edwards2024molcaparena, title={MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction}, author={Edwards, Carl and Lu, Ziqing and Hajiramezanali, Ehsan and Biancalani, Tommaso and Ji, Heng and Scalia, Gabriele}, journal={arXiv preprint arXiv:2411.00737}, url={https://arxiv.org/abs/2411.00737}, year={2024} }
排行榜
以下是生成的排行榜,包含不同模型的评分和性能指标。
| Model | Rating | 95% CI | ROC-AUC | BCE Loss | Avg. Error | Average Precision | Pearson R | Spearman R | R2 | MSE | MAE |
|---|---|---|---|---|---|---|---|---|---|---|---|
| BioT5_plus | 1061 | +3/-2 | 87.359 | 0.335 | 0.471 | 74.907 | 0.654 | 0.660 | 0.408 | 1.057 | 0.744 |
| BioT5 | 1059 | +3/-2 | 87.371 | 0.334 | 0.472 | 74.631 | 0.654 | 0.658 | 0.409 | 1.057 | 0.744 |
| LlaSMol | 1040 | +2/-3 | 86.522 | 0.340 | 0.473 | 73.271 | 0.655 | 0.661 | 0.409 | 1.054 | 0.746 |
| GPT-4o-Generic | 1032 | +2/-2 | 85.685 | 0.341 | 0.472 | 72.388 | 0.657 | 0.662 | 0.412 | 1.049 | 0.742 |
| TextChemT5 | 1032 | +4/-2 | 87.074 | 0.341 | 0.475 | 75.295 | 0.652 | 0.657 | 0.407 | 1.057 | 0.746 |
| Gemma2-9B-Frags-Drug | 1031 | +3/-4 | 85.543 | 0.343 | 0.475 | 72.435 | 0.653 | 0.657 | 0.407 | 1.062 | 0.747 |
| Gemma2-9B-Frags-Chem | 1030 | +3/-4 | 85.619 | 0.342 | 0.475 | 72.312 | 0.652 | 0.657 | 0.406 | 1.061 | 0.747 |
| Llama3.1-70B-Chem | 1021 | +2/-2 | 85.431 | 0.344 | 0.475 | 72.529 | 0.653 | 0.656 | 0.408 | 1.056 | 0.746 |
| Llama3.1-70B-Generic | 1021 | +1/-3 | 85.618 | 0.344 | 0.474 | 72.373 | 0.653 | 0.657 | 0.408 | 1.054 | 0.744 |
| MolT5 | 1021 | +1/-4 | 86.406 | 0.340 | 0.475 | 75.251 | 0.652 | 0.655 | 0.406 | 1.064 | 0.748 |
| Gemma2-9B-Frags-Generic | 1020 | +3/-3 | 85.550 | 0.342 | 0.476 | 72.455 | 0.651 | 0.657 | 0.406 | 1.064 | 0.749 |
| Llama3.1-70B-Drug | 1020 | +1/-2 | 85.594 | 0.343 | 0.471 | 72.430 | 0.655 | 0.660 | 0.412 | 1.042 | 0.740 |
| Llama3.1-405B-Generic | 1020 | +3/-1 | 85.469 | 0.342 | 0.471 | 72.048 | 0.658 | 0.663 | 0.416 | 1.038 | 0.738 |
| Llama3-70B-Drug | 1017 | +2/-3 | 85.392 | 0.343 | 0.472 | 72.179 | 0.656 | 0.660 | 0.413 | 1.047 | 0.741 |
| MistralNeMo-12B-Frags-Generic | 1017 | +2/-1 | 85.376 | 0.345 | 0.473 | 72.022 | 0.653 | 0.658 | 0.408 | 1.051 | 0.742 |
| Llama3.1-70B-Bio | 1016 | +2/-2 | 85.238 | 0.347 | 0.473 | 72.074 | 0.656 | 0.661 | 0.411 | 1.047 | 0.741 |
| Gemma2-27B-Generic | 1015 | +3/-3 | 85.254 | 0.343 | 0.471 | 72.152 | 0.654 | 0.661 | 0.412 | 1.043 | 0.739 |
| Llama3-70B-Chem | 1014 | +2/-4 | 85.355 | 0.344 | 0.473 | 72.181 | 0.655 | 0.659 | 0.409 | 1.053 | 0.742 |
| Gemma2-27B-Chem | 1013 | +1/-3 | 85.223 | 0.345 | 0.474 | 72.057 | 0.653 | 0.659 | 0.409 | 1.051 | 0.743 |
| MistralNeMo-12B-Frags-Chem | 1012 | +2/-3 | 85.746 | 0.343 | 0.472 | 72.320 | 0.656 | 0.660 | 0.411 | 1.046 | 0.741 |
| GPT-4o-Frags-Generic | 1012 | +3/-2 | 85.510 | 0.343 | 0.475 | 72.210 | 0.654 | 0.658 | 0.408 | 1.054 | 0.745 |
| Llama3-8B-Task | 1009 | +1/-2 | 85.414 | 0.344 | 0.477 | 72.182 | 0.652 | 0.656 | 0.406 | 1.063 | 0.748 |
| MistralNeMo-12B-Frags-Drug | 1008 | +3/-2 | 85.731 | 0.344 | 0.473 | 72.436 | 0.654 | 0.659 | 0.410 | 1.046 | 0.742 |
| Llama3-70B-Generic | 1008 | +3/-2 | 85.108 | 0.345 | 0.475 | 71.920 | 0.653 | 0.656 | 0.406 | 1.061 | 0.746 |
| Gemma2-9B-Frags-Bio | 1006 | +3/-3 | 85.284 | 0.346 | 0.477 | 72.020 | 0.651 | 0.657 | 0.405 | 1.065 | 0.750 |
| Llama3.1-70B-Quant | 1006 | +3/-3 | 85.312 | 0.344 | 0.474 | 72.163 | 0.653 | 0.660 | 0.408 | 1.052 | 0.743 |
| Llama3.1-405B-Frags-Generic | 1005 | +2/-2 | 85.482 | 0.344 | 0.476 | 72.682 | 0.653 | 0.657 | 0.405 | 1.065 | 0.749 |
| Gemma2-9B-Chem | 1004 | +1/-2 | 85.455 | 0.343 | 0.474 | 72.112 | 0.653 | 0.657 | 0.409 | 1.057 | 0.745 |
| Llama3-70B-Bio | 1003 | +1/-2 | 85.479 | 0.344 | 0.476 | 72.253 | 0.651 | 0.656 | 0.403 | 1.066 | 0.748 |
| Llama3-70B-Frags-Generic | 1003 | +3/-3 | 85.780 | 0.342 | 0.478 | 72.693 | 0.650 | 0.655 | 0.403 | 1.072 | 0.751 |
| Llama3.1-8B-Drug | 1003 | +4/-2 | 85.088 | 0.345 | 0.475 | 72.004 | 0.654 | 0.657 | 0.410 | 1.052 | 0.745 |
| Llama3.1-70B-Frags-Generic | 1001 | +3/-2 | 85.580 | 0.342 | 0.477 | 72.238 | 0.650 | 0.656 | 0.403 | 1.071 | 0.750 |
| Llama3.1-70B-Frags-Chem | 1001 | +3/-2 | 85.512 | 0.343 | 0.477 | 72.306 | 0.651 | 0.657 | 0.404 | 1.070 | 0.749 |
| Gemma2-27B-Frags-Drug | 1001 | +2/-4 | 85.644 | 0.342 | 0.477 |
搜集汇总
数据集介绍

构建方式
MOLCAP-ARENA数据集是通过评估超过二十种大型语言模型(LLMs)在分子属性预测任务中的表现而构建的。这些LLMs包括通用和特定领域的分子描述器。为了实现这一目标,研究人员引入了一个新颖的基于战斗的评级系统,通过比较不同描述器在预测任务中的表现来评估其能力。
特点
MOLCAP-ARENA数据集的特点在于其全面性,它涵盖了多种预测任务,并使用了多种LLMs进行比较。此外,该数据集采用了新颖的基于战斗的评级系统,能够更直接和全面地比较不同描述器的表现。此外,该数据集还提供了分子描述和统一的代码库,方便未来的比较和研究。
使用方法
MOLCAP-ARENA数据集的使用方法包括下载代码、资源和数据,然后可以使用提供的代码库和模型进行分子属性预测任务。用户可以选择不同的描述器进行预测,并通过基于战斗的评级系统来评估其表现。此外,用户还可以使用提供的分子描述来帮助理解和解释模型的预测结果。
背景与挑战
背景概述
MOLCAP-ARENA是一个旨在评估大型语言模型(LLM)在分子属性预测中的作用的基准数据集。该数据集由伊利诺伊大学和Genentech的研究人员创建,并于2024年11月发布。MOLCAP-ARENA的核心研究问题是探究LLM提取的知识如何增强分子表示,从而提高复杂预测任务(如毒性预测)的性能。该数据集的发布为相关领域的研究提供了重要的资源,并促进了LLM在生物分子建模中的应用。
当前挑战
MOLCAP-ARENA数据集面临的挑战包括:1) 如何有效地评估LLM生成的分子描述信息对真实世界分子建模任务(如毒性预测)的贡献;2) 如何构建一个公平且全面的基准,以比较不同LLM模型在不同任务中的表现;3) 如何解决LLM模型在分子描述任务中的模糊性,并确保评估指标的准确性。
常用场景
经典使用场景
MOLCAP-ARENA数据集主要用于评估语言增强型分子性质预测中分子描述的有效性。该数据集包含大规模的分子描述和统一代码库,包括数十个模型,方便未来在分子建模领域的比较研究。通过分析现有模型,包括特定领域的描述器和最先进的LLM,研究人员可以深入了解描述符捕获相关生化知识的能力。MOLCAP-ARENA为评估分子描述符提供了新的方法,超越了传统的基于字符串的度量标准,有助于推动分子建模和自然语言处理领域的研究。
解决学术问题
MOLCAP-ARENA数据集解决了分子描述评价的难题。传统的基于机器翻译的度量标准,如BLEU和ROUGE分数,依赖于真实描述,因此受到分子描述的多样性限制。MOLCAP-ARENA引入了一个新的基于战斗的评分系统,直接比较不同描述源在特定任务上的表现,提供了一个更全面、更直接的评价方法。此外,该数据集还提供了对LLM提取知识的实用性的评估,以及如何将LLM驱动的见解应用于实际的分子建模任务。
衍生相关工作
MOLCAP-ARENA数据集衍生了许多相关工作。例如,研究人员利用该数据集评估了不同LLM和分子描述符在分子性质预测任务中的性能,发现特定领域的描述器和大规模通用LLM均表现出良好的性能。此外,该数据集还推动了分子描述评价方法的研究,例如基于战斗的评分系统和多任务学习模型。MOLCAP-ARENA为分子建模和自然语言处理领域的研究提供了新的方向,有助于推动相关技术的发展和应用。
以上内容由遇见数据集搜集并总结生成



