ChemCoTBench

Name: ChemCoTBench
Creator: 北京大学, 国际数字经济学院, 耶鲁大学
Published: 2025-05-27 23:15:44
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://huggingface.co/datasets/OpenMol/ChemCoTBench

下载链接

链接失效反馈

官方服务：

资源简介：

ChemCoTBench是一个用于评估大型语言模型（LLM）在化学应用中的推理能力的基准数据集。它通过将复杂的化学任务分解为一系列可验证的模块化化学操作来评估LLM的推理能力。数据集包含1495个样本，涵盖了22个化学任务，包括分子理解、编辑、优化和反应预测。该数据集的创建旨在解决现有化学基准数据集缺乏推理和应用导向任务的局限性。

ChemCoTBench is a benchmark dataset for evaluating the reasoning capabilities of large language models (LLMs) in chemical applications. It assesses the reasoning abilities of LLMs by decomposing complex chemical tasks into a series of verifiable modular chemical operations. The dataset contains 1,495 samples spanning 22 chemical tasks, including molecular comprehension, editing, optimization, and reaction prediction. This dataset was created to address the limitations of existing chemical benchmark datasets, which lack reasoning and application-oriented tasks.

提供机构：

北京大学, 国际数字经济学院, 耶鲁大学

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

ChemCoTBench的构建采用了多阶段混合标注方法，结合专家知识与大语言模型辅助标注。研究团队从PubChem、ChEMBL等权威化学数据库中收集原始分子结构，并通过系统化的过滤策略确保数据多样性。数据集构建流程包含四个关键步骤：原始数据收集、分子过滤与分层采样、思维链标注以及化学专家评审。特别值得注意的是，所有样本都经过13位化学博士的双重验证，确保分子操作、反应机制等专业内容的准确性。这种严谨的构建方法使得数据集既覆盖了38种功能基团和100种常见反应类型，又保持了89%以上的专家验证准确率。

使用方法

使用ChemCoTBench时，建议采用分层评估策略：首先通过分子理解任务测试基础认知能力，再逐步考察分子编辑与优化等应用能力。对于反应预测任务，可采用Top-1准确率和分子指纹相似度（FTS）双重指标。数据集支持两种主要使用模式：1）作为基准测试时，可直接评估模型在标准化任务上的表现；2）用于模型训练时，其思维链标注可指导模型学习分步推理。值得注意的是，配合提供的IUPAC命名能显著提升模型对复杂分子结构的理解，在提示工程中应予以充分利用。

背景与挑战

背景概述

ChemCoTBench是由北京大学、国际数字经济学院和耶鲁大学的研究团队于2025年推出的化学推理评估基准数据集。该数据集旨在填补大型语言模型（LLMs）在化学领域系统性推理能力评估的空白，特别是在药物设计和反应工程等需要严格结构分析的实际任务中。ChemCoTBench通过将分子结构理解与模块化化学操作相结合，将化学问题解决形式化为透明、逐步的工作流程，为AI驱动的科学创新提供了重要工具。该数据集的核心研究问题是如何评估和改进LLMs在复杂化学任务中的逐步推理能力，对化学信息学、计算化学和药物发现等领域具有深远影响。

当前挑战

ChemCoTBench面临的主要挑战包括：1) 领域问题挑战：化学推理需要处理复杂的分子结构和多步反应机制，这与传统的图像分类或简单问答任务有本质区别；2) 构建过程挑战：数据集需要精确标注分子操作步骤和反应机制，这要求专业化学知识和高昂的人工审核成本；3) 评估挑战：如何设计既能反映真实化学问题复杂性又便于量化评估的任务指标；4) 模型泛化挑战：现有LLMs在数学和编程领域表现优异，但缺乏足够的化学推理数据来支持其在该领域的性能提升。

常用场景

经典使用场景

在计算化学与药物设计领域，ChemCoTBench通过模块化化学操作（如官能团增删改）构建分子结构理解的推理链条，为评估大语言模型在分子属性优化、反应预测等复杂任务中的分步推理能力提供了标准化测试框架。其核心价值在于将化学问题转化为类似数学证明的透明工作流，使模型能够基于分子SMILES表示执行可验证的结构变换。

解决学术问题

该数据集解决了现有化学基准测试中知识检索与复杂推理脱节的核心矛盾。通过定义22项化学子任务（涵盖分子理解、编辑、优化及反应预测），系统评估模型在药物亲和力优化、反应机理推演等场景下的结构化推理能力，填补了传统QA测试对合成可行性、毒性等现实约束考量的缺失，为AI驱动的科学创新建立了可量化的评估体系。

实际应用

在制药工业中，ChemCoTBench支持药物分子性质的迭代优化流程，如通过官能团替换提升溶解性（QED指标）或靶点结合力（GSK-3β抑制）。其反应预测模块可加速逆合成路线设计，而分子编辑任务直接对应先导化合物修饰的实际需求，显著降低湿实验试错成本。数据集标注的14,000条思维链数据更可作为AI化学助手的训练素材。

数据集最近研究