ChemLLMBench

arXiv2023-12-28 更新2024-07-30 收录

下载链接：

https://github.com/ChemFoundationModels/ChemLLMBench

下载链接

链接失效反馈

官方服务：

资源简介：

用于评估大型语言模型在化学领域八个任务上的能力的基准数据集，包括理解、推理和解释等关键化学相关能力。

A benchmark dataset for evaluating the capabilities of large language models across eight chemical domain tasks, covering key chemistry-related capabilities such as comprehension, reasoning, and interpretation.

创建时间：

2023-05-27

原始信息汇总

ChemLLMBench 数据集概述

数据集更新

2023年12月：更新了所有测试数据集，并在每个任务文件夹中添加了使用的提示（以日志格式）。详情请参见 data/ 文件夹。

数据集详情

数据集已上传至本仓库，但由于大小限制，请根据链接下载这些数据集。下载后，请将数据集移动到相应的文件夹，然后可以运行每个任务的 Jupyter 代码。

数据集名称	下载链接	参考文献
USPTO_Mixed	下载链接	参考文献
USPTO-50k	下载链接	参考文献
ChEBI-20	下载链接	参考文献
Suzuki-miyaura	下载链接	参考文献
Butchward-Hariwig	下载链接	参考文献
BBBP, BACE, HIV, Tox21, Clintox	下载链接	参考文献
PubChem	下载链接	参考文献

搜集汇总

数据集介绍

构建方式

在化学信息学领域，ChemLLMBench数据集的构建体现了系统化评估大语言模型化学能力的科学追求。该数据集整合了八个核心化学任务，涵盖分子性质预测、反应预测、逆合成分析及分子描述生成等方向。构建过程中，研究团队从多个权威化学数据库中精选数据，包括PubChem、USPTO、BBBP和ChEBI-20等，确保数据来源的可靠性与代表性。每个任务均设计了零样本和少样本上下文学习两种评估模式，并通过精心构建的提示模板与示例选择策略，以标准化方式对大语言模型进行系统性测试。

特点

ChemLLMBench的显著特点在于其全面性与专业性。数据集覆盖了化学领域的理解、推理与解释三大核心能力，并通过八项具体任务实现多维评估。其设计充分考虑了化学任务的特殊性，例如在分子性质预测中引入语义标签以增强模型表现，在反应预测中严格验证SMILES字符串的化学合理性。数据集的另一重要特点是其评估框架的严谨性，包括对提示工程、示例检索策略及温度参数的系统性探索，从而为大语言模型在化学领域的性能提供了可靠且可复现的基准。

使用方法

使用ChemLLMBench进行评估时，需遵循其设计的标准化流程。研究者首先根据具体任务选择相应的提示模板，模板通常包含通用指令、任务特定说明、上下文示例及待回答问题。在少样本学习设置中，可通过随机或基于分子骨架相似性的策略从候选池中检索示例，以探究示例质量与数量对模型表现的影响。评估过程需在零样本与少样本两种模式下进行，并考虑不同温度参数对输出随机性的影响。最终，模型输出需通过化学合理性检验及与基准模型的定量比较，以全面评估其化学任务处理能力。

背景与挑战

背景概述

ChemLLMBench 数据集由圣母大学的研究团队于2023年创建，旨在系统评估大型语言模型在化学领域的综合能力。该数据集围绕化学任务中的理解、推理与解释三大核心能力，构建了涵盖名称预测、性质预测、产率预测、反应预测、逆合成分析、文本驱动分子设计、分子描述生成及试剂选择等八项任务的基准测试框架。通过整合 BBBP、Tox21、PubChem、USPTO 及 ChEBI 等权威化学数据集，并采用零样本与少样本上下文学习策略对 GPT-4、GPT-3.5 等主流模型进行评测，该工作首次为化学与人工智能的交叉研究提供了标准化评估体系，推动了语言模型在科学计算领域的应用边界拓展。

当前挑战

ChemLLMBench 面临的挑战主要体现在两大维度：其一，在解决化学领域问题时，模型需克服对分子 SMILES 字符串的理解局限，此类字符串的隐式氢原子表示、多义性及分词偏差导致在名称翻译、反应预测等任务中生成准确性不足；其二，在数据集构建过程中，需精心设计提示模板以降低模型幻觉，同时平衡少样本示例的质量与数量，并应对 API 调用耗时与模型随机性对评估可靠性的影响。此外，当前评估指标在化学特异性方面的不足，以及模型生成有害化学物质的风险，亦构成了该数据集在实际应用中的重要挑战。

常用场景

经典使用场景

在化学信息学领域，ChemLLMBench 作为首个系统性评估大语言模型在化学任务中能力的基准，其经典使用场景集中于全面测试模型在八项核心化学任务上的表现。这些任务涵盖从分子性质预测、反应产率估计到文本驱动的分子设计与描述生成，通过零样本和少样本上下文学习设置，深入探索模型在化学理解、推理与解释三个维度的能力。该数据集通过整合广泛认可的化学数据集如 BBBP、USPTO 和 ChEBI-20，构建了一个标准化的评估框架，为研究人员提供了可靠且可复现的实验基础，从而系统性地揭示大语言模型在化学领域的潜力与局限。

衍生相关工作

ChemLLMBench 的发布催生了一系列相关的经典研究工作，主要集中在提升大语言模型在化学领域的专业能力。例如，基于其揭示的模型在理解分子 SMILES 表示方面的不足，后续研究探索了结合化学专业知识库或工具的方法，如将 RDKit 等化学信息学工具与大语言模型集成，以增强模型对分子结构的准确解析。同时，受其在少样本学习设置下表现的启发，研究者们开发了更高效的上下文学习策略，如基于分子骨架相似性的示例检索方法，以提升模型在特定化学任务中的性能。这些衍生工作共同推动了大语言模型在化学领域的应用从评估走向实际解决方案的开发。

数据集最近研究