MolLangBench

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/ChemFM/MolLangBench

下载链接

链接失效反馈

官方服务：

资源简介：

MolLangBench是一个全面的基准数据集，旨在评估AI模型在语言提示下的分子结构识别、编辑和生成能力。数据集包含三个核心任务：分子结构识别、分子编辑和分子生成。每个任务都有特定的特性和数据分割，用于评估AI模型在这些领域的性能。

创建时间：

2025-05-14

原始信息汇总

MolLangBench 数据集概述

数据集基本信息

名称: MolLangBench
许可证: MIT
语言: 英语 (en)
标签:
- molecule
- molecular_structure_recognition
- molecule_editing
- molecule_generation
- smiles
- molecule_image
- molecule_graph
- multimodal
任务类别:
- question-answering
- text-to-image
- image-to-text
- image-to-image

数据集结构

MolLangBench 包含三个核心任务配置：

1. 分子生成 (generation)

特征:
- smiles (string): 分子SMILES表示
- structure_description (string): 结构描述
- image (image): 分子图像
数据分割:
- test: 200个样本，8,064,011字节
下载大小: 7,688,768字节
数据集大小: 8,064,011字节

2. 分子编辑 (edit)

特征:
- original_smiles (string): 原始分子SMILES
- edit_instructions (string): 编辑指令
- edited_smiles (string): 编辑后分子SMILES
- original_image (image): 原始分子图像
- edited_image (image): 编辑后分子图像
数据分割:
- test: 200个样本，16,120,117字节
下载大小: 15,553,872字节
数据集大小: 16,120,117字节

3. 分子识别 (recognition)

特征:
- smiles (string): 分子SMILES表示
- target_atoms (string): 目标原子
- result_1 (string): 结果1
- result_2 (string): 结果2
- note (string): 备注
- task (string): 任务类型
- image (image): 分子图像
数据分割:
- train: 29,200个样本，1,511,746,740.2字节
- test: 3,600个样本，201,667,730.2字节
下载大小: 1,644,271,392字节
数据集大小: 1,713,414,470.4字节

基准测试结果

分子结构识别

包含16个子任务评估，包括：
- 单跳邻居识别
- 双跳邻居识别
- 三跳邻居识别
- 季碳识别
- 环连接识别
- 键连接识别
- 卤素原子识别等
评估指标：识别准确率/定位准确率

分子编辑与生成

分子编辑:
- 评估指标：SMILES有效性/准确性
分子生成:
- 评估指标：SMILES有效性/准确性

引用

bibtex @article{MolLangBench, title={MolLangBench: A Comprehensive Benchmark for Language-Prompted Molecular Structure Recognition, Editing, and Generation},
author={Feiyang Cai and Jiahui Bai and Tao Tang and Joshua Luo and Tianyu Zhu and Ling Liu and Feng Luo}, year={2025}, journal = {arXiv preprint arXiv:2505.15054}, }

相关链接

论文: https://arxiv.org/abs/2505.15054
GitHub仓库: https://github.com/TheLuoFengLab/MolLangBench

搜集汇总

数据集介绍

构建方式

MolLangBench数据集的构建基于多模态分子结构处理的前沿需求，采用系统化的数据采集与标注流程。研究团队整合了SMILES字符串、分子图像和自然语言描述三种数据模态，通过化学信息学工具验证分子结构的准确性，并聘请专业化学家对语言描述和编辑指令进行双重标注。数据集划分为识别、编辑和生成三个任务模块，每个模块均包含精心设计的测试集，其中识别任务额外包含大规模训练集以支持模型预训练。

特点

该数据集最显著的特点是实现了分子表示与自然语言处理的多模态融合，涵盖分子识别、编辑和生成三大核心任务。其数据样本包含精确标注的SMILES字符串、高质量分子图像和结构化文本描述，构成三维度的分子表示体系。基准测试结果展示了当前先进模型在各类分子任务上的性能表现，特别是分子识别任务中细分为15种具体子任务，为模型能力评估提供精细化指标。多模态特性使其能全面评估模型在化学与语言交叉领域的综合能力。

使用方法

使用该数据集时需根据具体任务选择相应配置，识别任务可利用训练集进行模型预训练后评估测试集性能；编辑和生成任务则直接使用测试集进行零样本评估。数据集提供标准化的评估指标，包括SMILES有效性和结构准确性等维度。研究人员可通过配套的GitHub仓库获取数据处理脚本和评估管道，建议结合OpenEye等化学信息学工具进行分子结构验证。多任务设计支持端到端评估模型在分子理解、转换和创造全流程的表现。

背景与挑战

背景概述

MolLangBench是由TheLuoFengLab团队于2025年推出的多模态分子语言基准测试，标志着计算化学与人工智能交叉领域的重要进展。该数据集聚焦分子结构的语言引导识别、编辑与生成三大核心任务，包含29,200个训练样本和3,600个测试样本，涵盖SMILES字符串、分子图像和自然语言描述三种数据模态。其创新性体现在首次系统评估AI模型在化学语义理解与分子操作方面的能力，相关论文发表于arXiv预印本平台。作为分子智能领域的标杆性工作，该数据集为药物发现、材料设计等应用场景提供了标准化评估框架。

当前挑战

在领域问题层面，MolLangBench需解决三大挑战：分子结构识别中语言提示与化学表征的语义对齐问题，分子编辑时结构修改的精确性与化学合理性平衡问题，以及分子生成过程中化学规则遵守与创意性设计的矛盾问题。数据构建阶段面临多模态数据协同标注的复杂性，包括SMILES字符串的语法验证、分子图像的可视化一致性，以及自然语言描述的化学专业性把控。基准测试结果显示，当前最优模型在分子识别任务平均准确率为87.7%，但在手性立体识别等复杂任务上仍存在显著性能差距，凸显分子空间几何理解的难点。

常用场景

经典使用场景

MolLangBench作为分子语言理解领域的基准测试集，其经典使用场景集中在评估多模态AI模型对分子结构的识别、编辑与生成能力。在药物发现研究中，该数据集常被用于测试模型从自然语言描述中解析SMILES编码的准确性，或验证模型根据文本指令修改分子官能团的可靠性。

实际应用

在制药工业中，该数据集支持构建智能分子设计系统，研究人员可通过自然语言指令快速生成候选药物分子或优化现有化合物。化学教育领域则利用其可视化分子编辑功能，开发交互式教学工具帮助学生理解分子结构与化学反应机理。

衍生相关工作

基于MolLangBench的评估框架，研究者开发了o3等先进分子语言模型，在SMILES生成准确率上达到93.5%。该数据集还启发了MOLUCIN等跨模态预训练方法，以及DrugGPT等专注于药物设计的领域大模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集