five

MOLCAP-ARENA

收藏
arXiv2024-11-02 更新2024-11-06 收录
下载链接:
https://github.com/Genentech/molcap-arena
下载链接
链接失效反馈
官方服务:
资源简介:
MOLCAP-ARENA是由基因泰克公司创建的一个全面的大规模分子描述数据集,旨在通过语言增强的分子属性预测任务中提供基准测试。该数据集包含了多种分子描述和属性预测任务,如毒性、生物活性等。数据集的创建过程结合了图神经网络(GNN)和生物链接BERT模型(bioLinkBERT-base),通过融合分子和文本信息来增强分子表示。MOLCAP-ARENA的应用领域主要集中在计算药物发现中的分子属性预测,旨在提高现有模型的性能和解释性。

MOLCAP-ARENA is a comprehensive large-scale molecular description dataset developed by Genentech, which aims to provide a benchmark for language-augmented molecular property prediction tasks. This dataset covers multiple molecular descriptions and property prediction tasks including toxicity, bioactivity and others. Its construction process combines Graph Neural Networks (GNN) and bioLinkBERT-base model, enhancing molecular representations by fusing molecular and textual information. The main application scenarios of MOLCAP-ARENA are molecular property prediction in computational drug discovery, with the goal of improving the performance and interpretability of existing models.
提供机构:
基因泰克
创建时间:
2024-11-02
原始信息汇总

MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction

数据集概述

MolCap-Arena 是一个全面的分子属性预测基准,专注于通过语言增强的分子描述生成。该数据集旨在评估和比较不同模型的分子描述生成能力。

数据集内容

  • 分子描述文件:包含分子描述的CSV文件,格式包括SMILES和captions。
  • 嵌入文件:包含分子嵌入的文件。
  • 分割文件:用于训练和评估的分子数据分割。
  • 对战文件:用于模型之间对战的文件。

数据集下载

数据集使用

安装

数据集使用两个conda环境:MolCapArena用于评估,Captioner用于生成描述。

运行基准测试

  1. 下载并解压battles.zip文件。
  2. 激活MolCapArena环境。
  3. 运行基准测试脚本。

评估新模型

  1. 创建新的描述文件。
  2. 下载并解压相关文件。
  3. 设置重要变量。
  4. 运行评估流程。

创建新描述生成器

  1. 复制现有描述生成器文件。
  2. 修改相关脚本以包含新模型。
  3. 运行描述生成脚本。

添加新数据集

  1. 下载并解压splits.zip文件。
  2. 生成新数据集的CSV文件。
  3. 修改相关脚本以包含新数据集。
  4. 运行描述生成和基准测试脚本。

引用

如果使用该数据集,请引用以下文献: bibtex @article{edwards2024molcaparena, title={MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction}, author={Edwards, Carl and Lu, Ziqing and Hajiramezanali, Ehsan and Biancalani, Tommaso and Ji, Heng and Scalia, Gabriele}, journal={arXiv preprint arXiv:2411.00737}, url={https://arxiv.org/abs/2411.00737}, year={2024} }

排行榜

以下是生成的排行榜,包含不同模型的评分和性能指标。

Model Rating 95% CI ROC-AUC BCE Loss Avg. Error Average Precision Pearson R Spearman R R2 MSE MAE
BioT5_plus 1061 +3/-2 87.359 0.335 0.471 74.907 0.654 0.660 0.408 1.057 0.744
BioT5 1059 +3/-2 87.371 0.334 0.472 74.631 0.654 0.658 0.409 1.057 0.744
LlaSMol 1040 +2/-3 86.522 0.340 0.473 73.271 0.655 0.661 0.409 1.054 0.746
GPT-4o-Generic 1032 +2/-2 85.685 0.341 0.472 72.388 0.657 0.662 0.412 1.049 0.742
TextChemT5 1032 +4/-2 87.074 0.341 0.475 75.295 0.652 0.657 0.407 1.057 0.746
Gemma2-9B-Frags-Drug 1031 +3/-4 85.543 0.343 0.475 72.435 0.653 0.657 0.407 1.062 0.747
Gemma2-9B-Frags-Chem 1030 +3/-4 85.619 0.342 0.475 72.312 0.652 0.657 0.406 1.061 0.747
Llama3.1-70B-Chem 1021 +2/-2 85.431 0.344 0.475 72.529 0.653 0.656 0.408 1.056 0.746
Llama3.1-70B-Generic 1021 +1/-3 85.618 0.344 0.474 72.373 0.653 0.657 0.408 1.054 0.744
MolT5 1021 +1/-4 86.406 0.340 0.475 75.251 0.652 0.655 0.406 1.064 0.748
Gemma2-9B-Frags-Generic 1020 +3/-3 85.550 0.342 0.476 72.455 0.651 0.657 0.406 1.064 0.749
Llama3.1-70B-Drug 1020 +1/-2 85.594 0.343 0.471 72.430 0.655 0.660 0.412 1.042 0.740
Llama3.1-405B-Generic 1020 +3/-1 85.469 0.342 0.471 72.048 0.658 0.663 0.416 1.038 0.738
Llama3-70B-Drug 1017 +2/-3 85.392 0.343 0.472 72.179 0.656 0.660 0.413 1.047 0.741
MistralNeMo-12B-Frags-Generic 1017 +2/-1 85.376 0.345 0.473 72.022 0.653 0.658 0.408 1.051 0.742
Llama3.1-70B-Bio 1016 +2/-2 85.238 0.347 0.473 72.074 0.656 0.661 0.411 1.047 0.741
Gemma2-27B-Generic 1015 +3/-3 85.254 0.343 0.471 72.152 0.654 0.661 0.412 1.043 0.739
Llama3-70B-Chem 1014 +2/-4 85.355 0.344 0.473 72.181 0.655 0.659 0.409 1.053 0.742
Gemma2-27B-Chem 1013 +1/-3 85.223 0.345 0.474 72.057 0.653 0.659 0.409 1.051 0.743
MistralNeMo-12B-Frags-Chem 1012 +2/-3 85.746 0.343 0.472 72.320 0.656 0.660 0.411 1.046 0.741
GPT-4o-Frags-Generic 1012 +3/-2 85.510 0.343 0.475 72.210 0.654 0.658 0.408 1.054 0.745
Llama3-8B-Task 1009 +1/-2 85.414 0.344 0.477 72.182 0.652 0.656 0.406 1.063 0.748
MistralNeMo-12B-Frags-Drug 1008 +3/-2 85.731 0.344 0.473 72.436 0.654 0.659 0.410 1.046 0.742
Llama3-70B-Generic 1008 +3/-2 85.108 0.345 0.475 71.920 0.653 0.656 0.406 1.061 0.746
Gemma2-9B-Frags-Bio 1006 +3/-3 85.284 0.346 0.477 72.020 0.651 0.657 0.405 1.065 0.750
Llama3.1-70B-Quant 1006 +3/-3 85.312 0.344 0.474 72.163 0.653 0.660 0.408 1.052 0.743
Llama3.1-405B-Frags-Generic 1005 +2/-2 85.482 0.344 0.476 72.682 0.653 0.657 0.405 1.065 0.749
Gemma2-9B-Chem 1004 +1/-2 85.455 0.343 0.474 72.112 0.653 0.657 0.409 1.057 0.745
Llama3-70B-Bio 1003 +1/-2 85.479 0.344 0.476 72.253 0.651 0.656 0.403 1.066 0.748
Llama3-70B-Frags-Generic 1003 +3/-3 85.780 0.342 0.478 72.693 0.650 0.655 0.403 1.072 0.751
Llama3.1-8B-Drug 1003 +4/-2 85.088 0.345 0.475 72.004 0.654 0.657 0.410 1.052 0.745
Llama3.1-70B-Frags-Generic 1001 +3/-2 85.580 0.342 0.477 72.238 0.650 0.656 0.403 1.071 0.750
Llama3.1-70B-Frags-Chem 1001 +3/-2 85.512 0.343 0.477 72.306 0.651 0.657 0.404 1.070 0.749
Gemma2-27B-Frags-Drug 1001 +2/-4 85.644 0.342 0.477
搜集汇总
数据集介绍
main_image_url
构建方式
MOLCAP-ARENA数据集是通过评估超过二十种大型语言模型(LLMs)在分子属性预测任务中的表现而构建的。这些LLMs包括通用和特定领域的分子描述器。为了实现这一目标,研究人员引入了一个新颖的基于战斗的评级系统,通过比较不同描述器在预测任务中的表现来评估其能力。
特点
MOLCAP-ARENA数据集的特点在于其全面性,它涵盖了多种预测任务,并使用了多种LLMs进行比较。此外,该数据集采用了新颖的基于战斗的评级系统,能够更直接和全面地比较不同描述器的表现。此外,该数据集还提供了分子描述和统一的代码库,方便未来的比较和研究。
使用方法
MOLCAP-ARENA数据集的使用方法包括下载代码、资源和数据,然后可以使用提供的代码库和模型进行分子属性预测任务。用户可以选择不同的描述器进行预测,并通过基于战斗的评级系统来评估其表现。此外,用户还可以使用提供的分子描述来帮助理解和解释模型的预测结果。
背景与挑战
背景概述
MOLCAP-ARENA是一个旨在评估大型语言模型(LLM)在分子属性预测中的作用的基准数据集。该数据集由伊利诺伊大学和Genentech的研究人员创建,并于2024年11月发布。MOLCAP-ARENA的核心研究问题是探究LLM提取的知识如何增强分子表示,从而提高复杂预测任务(如毒性预测)的性能。该数据集的发布为相关领域的研究提供了重要的资源,并促进了LLM在生物分子建模中的应用。
当前挑战
MOLCAP-ARENA数据集面临的挑战包括:1) 如何有效地评估LLM生成的分子描述信息对真实世界分子建模任务(如毒性预测)的贡献;2) 如何构建一个公平且全面的基准,以比较不同LLM模型在不同任务中的表现;3) 如何解决LLM模型在分子描述任务中的模糊性,并确保评估指标的准确性。
常用场景
经典使用场景
MOLCAP-ARENA数据集主要用于评估语言增强型分子性质预测中分子描述的有效性。该数据集包含大规模的分子描述和统一代码库,包括数十个模型,方便未来在分子建模领域的比较研究。通过分析现有模型,包括特定领域的描述器和最先进的LLM,研究人员可以深入了解描述符捕获相关生化知识的能力。MOLCAP-ARENA为评估分子描述符提供了新的方法,超越了传统的基于字符串的度量标准,有助于推动分子建模和自然语言处理领域的研究。
解决学术问题
MOLCAP-ARENA数据集解决了分子描述评价的难题。传统的基于机器翻译的度量标准,如BLEU和ROUGE分数,依赖于真实描述,因此受到分子描述的多样性限制。MOLCAP-ARENA引入了一个新的基于战斗的评分系统,直接比较不同描述源在特定任务上的表现,提供了一个更全面、更直接的评价方法。此外,该数据集还提供了对LLM提取知识的实用性的评估,以及如何将LLM驱动的见解应用于实际的分子建模任务。
衍生相关工作
MOLCAP-ARENA数据集衍生了许多相关工作。例如,研究人员利用该数据集评估了不同LLM和分子描述符在分子性质预测任务中的性能,发现特定领域的描述器和大规模通用LLM均表现出良好的性能。此外,该数据集还推动了分子描述评价方法的研究,例如基于战斗的评分系统和多任务学习模型。MOLCAP-ARENA为分子建模和自然语言处理领域的研究提供了新的方向,有助于推动相关技术的发展和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作