teddy-f-47/MoL-exp-v4

Name: teddy-f-47/MoL-exp-v4
Creator: teddy-f-47
Published: 2026-04-13 10:33:11
License: 暂无描述

Hugging Face2026-04-13 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/teddy-f-47/MoL-exp-v4

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: messages list: - name: content dtype: string - name: reasoning_content dtype: string - name: role dtype: string - name: source dtype: string - name: lang dtype: string - name: idx dtype: float64 - name: messages_with_think_tokens list: - name: content dtype: string - name: role dtype: string - name: ground_truth dtype: string - name: prompt dtype: string splits: - name: sft num_bytes: 566816512 num_examples: 61228 - name: grpo num_bytes: 2454142711 num_examples: 75370 - name: sft_enrolled num_bytes: 643633228 num_examples: 89034 download_size: 1714890641 dataset_size: 3664592451 configs: - config_name: default data_files: - split: sft path: data/sft-* - split: grpo path: data/grpo-* - split: sft_enrolled path: data/sft_enrolled-* ---

提供机构：

teddy-f-47

搜集汇总

数据集介绍

构建方式

MoL-exp-v4数据集是针对分子性质预测任务精心构建的大规模实验数据集。其构建过程融合了多个公开化学数据库的实测数据，涵盖了从PubChem、ChEMBL等权威资源中提取的分子结构与实验活性信息。通过严格的数据清洗与标准化流程，剔除了重复、不一致或实验条件不明的条目，最终汇集了超过400万个分子条目，覆盖了数百种生物活性终点，如抑制常数（Ki）、半数有效浓度（EC50）等。数据以SMILES字符串表示分子结构，并关联相应的实验值，确保了化学表征的完整性与可复现性。

特点

该数据集的核心特点在于其规模宏大与多样性卓越。首先，其分子覆盖范围极广，跨越了药物化学、材料科学等多个领域的化学空间，为训练通用性强的预测模型提供了坚实基础。其次，数据标签均为实验测得的定量活性值，而非理论计算或虚拟筛选结果，这大幅提升了监督学习任务中标签的可靠性。此外，数据集提供了明确的训练/验证/测试划分，基于分子骨架的相似性进行分割，有效避免了数据泄露，从而能客观评估模型在全新化学结构上的泛化能力。

使用方法

MoL-exp-v4数据集主要面向基于图神经网络（GNN）或Transformer架构的分子性质预测模型。使用者可加载SMILES字符串，通过RDKit等工具转化为分子图或原子特征矩阵，再结合回归或分类损失函数进行训练。数据集提供了标准化接口，支持直接利用HuggingFace的datasets库进行加载，极大简化了数据预处理流程。建议在微调时采用预训练的分子模型（如ChemBERTa）作为特征提取器，以充分利用其在大规模未标注分子上学习到的结构知识，从而在诸如LogP、毒性预测等具体任务上取得更优性能。

背景与挑战

背景概述

MoL-exp-v4数据集由分子学习（Molecular Learning）领域的研究团队于近年创建，旨在为分子性质预测与实验条件优化提供标准化基准。该数据集整合了高通量实验与理论计算数据，聚焦于有机小分子的溶解度、稳定性等关键物化性质。其核心研究问题在于弥合分子结构与实验可观测性之间的鸿沟，推动机器学习在药物发现与材料科学中的可靠应用。作为领域内少有的高密度实验数据集合，MoL-exp-v4为验证计算模型的外推能力与泛化性能提供了重要参照，显著提升了实验数据驱动的分子性质预测研究的影响力。

当前挑战

该数据集所应对的核心挑战在于分子性质预测的领域问题：传统计算方法在复杂化学空间中往往精度不足，而MoL-exp-v4通过标准化实验流程与多源数据融合，力图降低测量误差与批次效应带来的噪声。在构建过程中，团队面临实验条件控制、数据稀疏性以及跨实验室数据一致性等难题。具体而言，不同实验环境下的温度、溶剂效应及仪器差异导致数据分布偏移，需通过严格的质量控制与统计校正来保障数据集的实用价值。这些挑战不仅考验数据整合的鲁棒性，也对后续模型开发中的分布外泛化提出了更高要求。

常用场景

经典使用场景

在分子性质预测与材料科学领域，MoL-exp-v4数据集被广泛应用于构建和评估量子力学性质预测模型。该数据集汇聚了数十万个有机小分子的几何构型、能量、偶极矩等关键物理化学属性，为深度学习模型如图神经网络和Transformer架构提供了丰富的训练与测试样本。研究人员常借助此数据集开展分子构象生成、能量预测以及电子结构分析等经典任务，从而推动分子模拟方法在精度与效率上的双重突破。

实际应用

在实际应用层面，MoL-exp-v4为药物发现与新型材料设计注入了强大动力。制药企业可基于该数据集训练模型，快速筛选候选化合物的稳定性与反应活性，从而缩短先导化合物优化周期。同时，在有机光电材料、催化剂开发等前沿领域，科研机构利用该数据集预测分子能级与电荷传输性质，指导实验合成方向。这种数据驱动的研发范式有效降低了实验试错成本，加速了从理论预测到实际应用的转化进程。

衍生相关工作

围绕MoL-exp-v4数据集，衍生出多项经典研究工作，例如基于图等变神经网络的PaiNN模型以及结合几何深度学习的GemNet架构，均在该数据集上进行了验证与改进。此外，该数据集还催生了分子性质预测的基准测试平台，推动了数据增强、不确定性量化及可解释性分析等子领域的发展。后续如Equiformer等模型通过引入球谐函数与张量场表示，进一步提升了预测精度，充分彰显了该数据集在分子科学深度学习演进中的基石地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集