MolLangData

github2026-02-14 更新2026-03-01 收录

下载链接：

https://github.com/TheLuoFengLab/MolLangData

下载链接

链接失效反馈

官方服务：

资源简介：

MolLangData是一个大规模的分子结构与自然语言描述配对的数据集，通过规则正则化方法生成。它支持训练和评估分子结构与语言对齐的模型。

MolLangData is a large-scale paired dataset of molecular structures and natural language descriptions, generated via rule-based regularization methods. It supports the training and evaluation of models that align molecular structures with natural language.

创建时间：

2026-02-02

原始信息汇总

MolLangData 数据集概述

数据集基本信息

数据集名称：MolLangData
核心内容：一个大规模的分子结构与自然语言描述配对数据集。
生成方法：通过规则正则化方法生成。
主要用途：支持用于分子结构-语言对齐模型的训练和评估。

数据集规模与构成

主数据集规模：约163,000个样本。
数据来源：基于PubChem数据生成。
数据划分：
- validated_data：包含所有经过验证的数据（2,000个样本），包括通过和未通过验证的描述。
- generated_data：包含第0轮（round_0）生成的所有数据，但不包含已验证的子集，这些样本未经验证。

数据集统计详情

难度等级	使用模型	推理强度	生成样本数（占比）	验证样本数（占比）	验证精确度
简单	GPT-5.2	high	105,085 (65.2%)	1,317 (65.8%)	1,300 (98.7%)
中等	GPT-5.2	xhigh	40,916 (25.4%)	496 (24.8%)	未提供

获取与访问

主仓库地址：https://github.com/TheLuoFengLab/MolLangData
Hugging Face 数据集地址：https://huggingface.co/datasets/ChemFM/MolLangData
预采样与预处理数据：可通过 Box 获取（推荐），链接为 https://clemson.box.com/s/5ioww4x9273pscfqtzmnpze80j9b8ugh
相关基准数据集 (MolLangBench)：
- 用途：用于分子结构识别、编辑和生成的人工策划基准。其生成任务与本研究中的结构描述对齐，可作为标准化的验证评估。
- 地址：https://github.com/TheLuoFengLab/MolLangBench 及 https://huggingface.co/datasets/ChemFM/MolLangBench

数据处理与生成流程

数据集生成流程主要包含以下步骤：

SDF → TSV转换：将PubChem SDF文件转换为TSV格式。
采样：从TSV中进行确定性采样，分块处理（例如每轮20万个样本）。
OPSIN + MolLangData解析：使用定制化的OPSIN工具获取完整的XML结构数据。
创建批量提示JSONL：根据解析结果构建LLM任务文件，分配难度等级并构建提示。
运行LLM任务：提交至LLM API以获取结构描述。支持OpenAI Batch API或逐一请求的方式。

工具与依赖

核心工具：使用定制化的OPSIN分支（https://github.com/feiyang-cai/opsin_mollangdata）进行IUPAC名称到XML/SMILES的转换，并添加了完整的XML结构元数据。
运行环境要求：
- Python 3.8+
- Java (JRE或JDK)
- Python依赖包：openai, rdkit等（可通过pip install -r requirements.txt安装）

单分子处理脚本

脚本 get_prompt_description_from_iupac.py 支持以下功能：

输入一个IUPAC名称，运行OPSIN获取XML和SMILES。
计算分子难度等级（简单/中等/困难）。
构建提示词。
可选调用LLM生成结构描述。

许可与联系

许可证：MIT
合作联系：主要联系人 Feiyang Cai (feiyang@clemson.edu)
相关论文：arXiv:2602.02320 (https://arxiv.org/abs/2602.02320)

搜集汇总

数据集介绍

构建方式

MolLangData的构建过程体现了化学信息学与自然语言处理交叉领域的系统性数据工程实践。该数据集以PubChem化合物库为原始数据源，通过多阶段流程实现分子结构与文本描述的精准对齐。构建流程始于将SDF格式的分子数据转换为结构化TSV文件，随后采用确定性采样策略从海量化合物中筛选代表性样本。核心步骤利用定制化的OPSIN工具将IUPAC命名系统性地解析为包含完整结构信息的XML表示，并依据分子复杂度自动划分难度等级。最终通过规则引导的大语言模型生成流程，结合动态提示模板与分层推理机制，批量产生与分子拓扑结构相对应的自然语言描述，形成约16.3万对高质量数据对。

使用方法

研究者可通过Hugging Face平台直接加载MolLangData的两种数据配置，其中validated_data包含经过人工验证的2000个样本，generated_data则提供完整的16.3万生成样本。数据集采用标准化的键值对结构，每个样本包含SMILES序列、IUPAC命名、XML结构表示及自然语言描述四个核心字段。使用时可结合RDKit等化学信息学工具进行分子可视化与特征提取，或通过Transformer架构实现分子表示与文本描述的跨模态对齐训练。对于特定研究需求，项目提供了完整的复现管道脚本，支持从原始PubChem数据开始重新生成数据集，并包含单分子描述生成工具，允许用户输入任意IUPAC名称获取结构化提示与AI生成的分子描述。

背景与挑战

背景概述

在化学信息学与人工智能交叉领域，分子结构与其自然语言描述之间的对齐是推动药物发现与材料科学发展的关键。MolLangData数据集由TheLuoFengLab团队于2026年创建，旨在构建一个大规模、高质量的分子结构-语言描述配对数据集。该数据集通过规则正则化方法生成，核心研究问题聚焦于解决分子结构的多模态表示难题，即如何将复杂的化学结构精确转化为人类可读的自然语言描述。其影响力在于为分子-语言对齐模型的训练与评估提供了标准化资源，促进了化学领域大型语言模型的发展，并为分子识别、编辑与生成等下游任务奠定了数据基础。

当前挑战

MolLangData数据集致力于解决分子结构-语言描述对齐这一领域核心问题，其挑战在于分子结构的复杂性与语言描述的模糊性之间的鸿沟。具体而言，分子中环系统、官能团与立体化学的精确描述需要高度的专业性与一致性，而现有自然语言生成模型往往难以保证化学准确性。在构建过程中，数据集面临多重挑战：首先，从PubChem等原始数据源提取并解析IUPAC命名与SMILES表示需要处理大规模异构数据，且需依赖定制化的OPSIN工具进行XML元数据转换；其次，利用大型语言模型生成描述时存在成本高昂与非确定性输出的问题，需设计精细的难度分级与提示工程策略以确保数据质量；最后，数据验证环节要求人工审核与自动化检查相结合，以平衡生成效率与化学正确性。

常用场景

经典使用场景

在计算化学与人工智能交叉领域，MolLangData数据集以其大规模分子结构与自然语言描述的配对特性，为分子-语言对齐模型的训练与评估提供了关键支撑。该数据集通过规则正则化方法生成，经典使用场景集中于训练跨模态模型，使模型能够理解分子结构图与文本描述之间的语义关联，进而实现从结构到描述或从描述到结构的双向推理。

解决学术问题

MolLangData有效解决了分子信息学中跨模态表示学习的核心挑战，即如何弥合结构化分子数据（如SMILES、分子图）与自然语言之间的语义鸿沟。该数据集为研究分子结构描述生成、基于文本的分子设计、以及分子属性预测等任务提供了标准化基准，推动了分子-语言对齐理论的发展，并促进了化学领域知识在人工智能模型中的可解释性集成。

实际应用

在实际应用中，MolLangData支持药物发现与材料科学中的智能辅助设计。例如，研究人员可利用该数据集训练的模型，根据文本描述自动生成候选分子结构，加速先导化合物筛选；亦可通过自然语言查询检索特定功能的分子库，提升化学信息检索的效率和准确性，为自动化实验平台提供语言交互界面。

数据集最近研究