five

FGBench

收藏
arXiv2025-08-05 更新2025-08-07 收录
下载链接:
https://github.com/xuanliugit/FGBench
下载链接
链接失效反馈
官方服务:
资源简介:
FGBench是一个包含625K分子性质推理问题的数据集,具有功能团信息。功能团在分子中被精确标注和定位,确保数据集的互操作性,从而促进进一步的多模态应用。FGBench包括三个类别的回归和分类任务,涵盖245种不同的功能团,用于分子性质推理:(1)单个功能团的影响,(2)多个功能团的相互作用,(3)直接分子比较。在7K精选数据上对最先进的LLMs进行基准测试的结果表明,当前的LLMs在FG级性质推理方面存在困难,突出了提高LLMs在化学任务中的推理能力的需求。我们预计,FGBench中用于构建具有功能团级信息的数据集的方法将作为生成新问答对的基础框架,使LLMs更好地理解细粒度的分子结构-性质关系。

FGBench is a dataset containing 625K molecular property reasoning questions with functional group information. Functional groups are precisely annotated and localized within molecules, ensuring the dataset's interoperability to facilitate further multimodal applications. FGBench includes three categories of regression and classification tasks covering 245 distinct functional groups for molecular property reasoning: (1) the impact of single functional groups, (2) interactions between multiple functional groups, and (3) direct molecular comparisons. Benchmark results of state-of-the-art large language models (LLMs) on 7K curated data demonstrate that current LLMs struggle with FG-level property reasoning, highlighting the need to improve LLMs' reasoning capabilities in chemical tasks. We anticipate that the methodology employed in FGBench for constructing datasets with functional group-level information will serve as a foundational framework for generating new question-answer pairs, enabling LLMs to better comprehend fine-grained molecular structure-property relationships.
提供机构:
伊利诺伊大学厄巴纳-香槟分校化学与生物分子工程系
创建时间:
2025-08-02
原始信息汇总

FGBench: 分子功能基团水平性质推理数据集与基准测试

数据集概述

  • 目的:为大型语言模型提供分子功能基团水平性质推理的数据集与基准测试
  • 数据来源:基于MoleculeNet数据集构建,包含功能基团信息

数据集结构

主要列说明

  • question:关于功能基团如何影响性质变化的问题
  • answer:问题的真实答案
  • target_smiles:目标分子的规范化SMILES
  • target_mapped_smiles:带原子编号的目标分子SMILES
  • ref_smiles:参考分子的规范化SMILES
  • ref_mapped_smiles:带原子编号的参考分子SMILES
  • target_diff:目标分子中独特功能基团和烷烃的格式化列表
  • ref_diff:参考分子中独特功能基团和烷烃的格式化列表
  • disconnect_list:会离开目标分子的任何基团或烷烃
  • connect_dict:基团与其连接位点的字典
  • target_label:目标分子在property_name上的真实标签
  • ref_label:参考分子在property_name上的真实标签
  • property_name:性质名称
  • type:问答类型
  • dataset:数据集名称
  • task_num:数据集的任务/列号
  • split:训练/测试拆分标签

包含的性质任务

回归任务

  • esol:水溶解度(log-scale mols/L)
  • lipo:辛醇/水分配系数(pH 7.4下的logD)
  • freesolv:水合自由能
  • qm9:12种量子化学性质(偶极矩、极化率、HOMO/LUMO能量等)

分类任务

  • hiv:HIV抑制活性
  • bace:人β-分泌酶1(BACE-1)抑制活性
  • bbbp:血脑屏障渗透性
  • tox21:12种毒性相关通路激活
  • sider:27种药物副作用
  • clintox:FDA批准并通过临床试验的药物

使用方式

加载数据集

python from datasets import load_dataset dataset = load_dataset("xuan-liu/FGBench") # 加载全部数据 dataset_test = load_dataset("xuan-liu/FGBench", split="test") # 基准测试集 dataset_train = load_dataset("xuan-liu/FGBench", split="train")

构建自定义数据集

  1. 构建功能基团比较数据
  2. 基于比较数据构建问答对
  3. 指定任务类型(回归或分类)

数据处理流程

bash python build_dataset.py [DATASET_NAME] # 构建标准数据集 python build_qa.py [DATASET_NAME] # 应用模板构建问答 python split_qa.py # 拆分数据集为训练集和测试集

搜集汇总
数据集介绍
main_image_url
构建方式
FGBench数据集的构建采用了创新的验证-重构策略,通过分子相似性矩阵筛选高相似度分子对(Tanimoto相似度>0.7),结合AccFG工具精准标注功能基团差异及其空间位置。该流程包含分子规范化、功能基团差分计算和化学有效性验证三个核心环节,最终生成包含42,967组分子对比数据的基础库,覆盖245种功能基团和27种烷烃链长度。特别设计的重构验证机制通过功能基团的删除与替换操作,确保分子结构修改后的化学合理性,为后续多模态应用提供原子级精度的结构对应关系。
特点
作为首个专注于功能基团层面分子属性推理的数据集,FGBench包含62.5万组问答对,其核心特征体现在三维任务架构:单功能基团影响、多功能基团交互和分子直接对比。数据集创新性地融合布尔型与数值型双重标注体系,并配备精确的原子编号SMILES表示和功能基团连接位点信息。通过整合10个MoleculeNet子集的8种分子属性,构建了覆盖物理化学、生物物理和生理学领域的多层次评估框架,其中功能基团注释采用标准化命名(如羟基标记为-OH)并保留立体化学信息,支持从定性趋势识别到定量数值预测的全维度评估。
使用方法
使用FGBench时需遵循其三层递进式任务框架:单功能基团任务侧重基团-属性关联学习,交互任务考察基团组合效应,对比任务评估分子整体差异推理。数据集提供标准化模板生成自然语言指令,研究者可通过API调用或本地加载方式获取分子图-文本对。评估时建议采用7K精选测试子集,针对分类任务计算准确率(ACC),回归任务采用均方根误差(RMSE)。高级应用可结合原子映射编号实现分子编辑验证,或利用功能基团定位信息开发图神经网络与语言模型的混合架构。
背景与挑战
背景概述
FGBench是由伊利诺伊大学厄巴纳-香槟分校的Xuan Liu等研究人员于2025年推出的一个专注于分子功能基团级别性质推理的数据集。该数据集包含62.5万个分子性质推理问题,涵盖245种功能基团,旨在解决现有分子数据集(如MoleculeNet)仅关注分子级别性质预测而忽略功能基团信息的问题。FGBench通过精确标注功能基团在分子中的位置,为构建更具解释性和结构感知能力的大语言模型(LLMs)提供了重要支持,推动了分子设计和药物发现领域的发展。
当前挑战
FGBench面临的挑战主要包括两个方面:1) 领域问题挑战:现有分子性质预测方法难以准确捕捉功能基团对分子性质的细粒度影响,尤其是在处理多个功能基团相互作用或分子比较时,模型的表现显著下降;2) 构建过程挑战:数据集构建需要精确标注功能基团在分子中的位置,并解决分子不对称性、二维结构信息和异构体等复杂问题。此外,现有标注方法(如CheckMol)无法有效处理功能基团重叠或差异识别,需要通过验证-重构策略确保数据质量。
常用场景
经典使用场景
FGBench数据集在分子属性推理领域具有广泛的应用价值,特别是在功能基团(Functional Group, FG)层面的分子属性预测任务中。该数据集通过精确标注分子中的功能基团及其位置,为研究者提供了一个可靠的基准,用于评估和提升大型语言模型(LLMs)在化学领域的推理能力。其经典使用场景包括单功能基团影响分析、多功能基团相互作用研究以及分子间直接比较,这些任务在药物发现和分子设计中尤为重要。
实际应用
在实际应用中,FGBench数据集为药物设计和分子优化提供了重要支持。通过功能基团层面的属性推理,研究人员可以快速识别关键功能基团对药物活性、溶解性或毒性的影响,从而优化候选药物分子。例如,在HIV抑制剂或BACE-1抑制剂的开发中,利用FGBench可以高效筛选出具有理想属性的分子结构,显著缩短研发周期并降低成本。此外,该数据集还可用于化学教育,帮助学生理解功能基团与分子性质之间的关系。
衍生相关工作
FGBench数据集的推出催生了一系列相关研究工作,特别是在多模态分子表示学习和检索增强生成(RAG)领域。例如,基于FGBench的功能基团注释,研究者开发了FG-BERT等模型,专注于功能基团的分子表示学习。此外,该数据集还启发了如Mol-Instructions和SMolInstruct等指令数据集的构建,进一步扩展了化学领域大型语言模型的应用范围。这些衍生工作不仅验证了FGBench的科学价值,也为化学信息学和AI交叉研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作