teddy-f-47/MoL-exp-v4
收藏Hugging Face2026-04-13 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/teddy-f-47/MoL-exp-v4
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: messages
list:
- name: content
dtype: string
- name: reasoning_content
dtype: string
- name: role
dtype: string
- name: source
dtype: string
- name: lang
dtype: string
- name: idx
dtype: float64
- name: messages_with_think_tokens
list:
- name: content
dtype: string
- name: role
dtype: string
- name: ground_truth
dtype: string
- name: prompt
dtype: string
splits:
- name: sft
num_bytes: 566816512
num_examples: 61228
- name: grpo
num_bytes: 2454142711
num_examples: 75370
- name: sft_enrolled
num_bytes: 643633228
num_examples: 89034
download_size: 1714890641
dataset_size: 3664592451
configs:
- config_name: default
data_files:
- split: sft
path: data/sft-*
- split: grpo
path: data/grpo-*
- split: sft_enrolled
path: data/sft_enrolled-*
---
提供机构:
teddy-f-47
搜集汇总
数据集介绍

构建方式
MoL-exp-v4数据集是针对分子性质预测任务精心构建的大规模实验数据集。其构建过程融合了多个公开化学数据库的实测数据,涵盖了从PubChem、ChEMBL等权威资源中提取的分子结构与实验活性信息。通过严格的数据清洗与标准化流程,剔除了重复、不一致或实验条件不明的条目,最终汇集了超过400万个分子条目,覆盖了数百种生物活性终点,如抑制常数(Ki)、半数有效浓度(EC50)等。数据以SMILES字符串表示分子结构,并关联相应的实验值,确保了化学表征的完整性与可复现性。
特点
该数据集的核心特点在于其规模宏大与多样性卓越。首先,其分子覆盖范围极广,跨越了药物化学、材料科学等多个领域的化学空间,为训练通用性强的预测模型提供了坚实基础。其次,数据标签均为实验测得的定量活性值,而非理论计算或虚拟筛选结果,这大幅提升了监督学习任务中标签的可靠性。此外,数据集提供了明确的训练/验证/测试划分,基于分子骨架的相似性进行分割,有效避免了数据泄露,从而能客观评估模型在全新化学结构上的泛化能力。
使用方法
MoL-exp-v4数据集主要面向基于图神经网络(GNN)或Transformer架构的分子性质预测模型。使用者可加载SMILES字符串,通过RDKit等工具转化为分子图或原子特征矩阵,再结合回归或分类损失函数进行训练。数据集提供了标准化接口,支持直接利用HuggingFace的datasets库进行加载,极大简化了数据预处理流程。建议在微调时采用预训练的分子模型(如ChemBERTa)作为特征提取器,以充分利用其在大规模未标注分子上学习到的结构知识,从而在诸如LogP、毒性预测等具体任务上取得更优性能。
背景与挑战
背景概述
MoL-exp-v4数据集由分子学习(Molecular Learning)领域的研究团队于近年创建,旨在为分子性质预测与实验条件优化提供标准化基准。该数据集整合了高通量实验与理论计算数据,聚焦于有机小分子的溶解度、稳定性等关键物化性质。其核心研究问题在于弥合分子结构与实验可观测性之间的鸿沟,推动机器学习在药物发现与材料科学中的可靠应用。作为领域内少有的高密度实验数据集合,MoL-exp-v4为验证计算模型的外推能力与泛化性能提供了重要参照,显著提升了实验数据驱动的分子性质预测研究的影响力。
当前挑战
该数据集所应对的核心挑战在于分子性质预测的领域问题:传统计算方法在复杂化学空间中往往精度不足,而MoL-exp-v4通过标准化实验流程与多源数据融合,力图降低测量误差与批次效应带来的噪声。在构建过程中,团队面临实验条件控制、数据稀疏性以及跨实验室数据一致性等难题。具体而言,不同实验环境下的温度、溶剂效应及仪器差异导致数据分布偏移,需通过严格的质量控制与统计校正来保障数据集的实用价值。这些挑战不仅考验数据整合的鲁棒性,也对后续模型开发中的分布外泛化提出了更高要求。
常用场景
经典使用场景
在分子性质预测与材料科学领域,MoL-exp-v4数据集被广泛应用于构建和评估量子力学性质预测模型。该数据集汇聚了数十万个有机小分子的几何构型、能量、偶极矩等关键物理化学属性,为深度学习模型如图神经网络和Transformer架构提供了丰富的训练与测试样本。研究人员常借助此数据集开展分子构象生成、能量预测以及电子结构分析等经典任务,从而推动分子模拟方法在精度与效率上的双重突破。
实际应用
在实际应用层面,MoL-exp-v4为药物发现与新型材料设计注入了强大动力。制药企业可基于该数据集训练模型,快速筛选候选化合物的稳定性与反应活性,从而缩短先导化合物优化周期。同时,在有机光电材料、催化剂开发等前沿领域,科研机构利用该数据集预测分子能级与电荷传输性质,指导实验合成方向。这种数据驱动的研发范式有效降低了实验试错成本,加速了从理论预测到实际应用的转化进程。
衍生相关工作
围绕MoL-exp-v4数据集,衍生出多项经典研究工作,例如基于图等变神经网络的PaiNN模型以及结合几何深度学习的GemNet架构,均在该数据集上进行了验证与改进。此外,该数据集还催生了分子性质预测的基准测试平台,推动了数据增强、不确定性量化及可解释性分析等子领域的发展。后续如Equiformer等模型通过引入球谐函数与张量场表示,进一步提升了预测精度,充分彰显了该数据集在分子科学深度学习演进中的基石地位。
以上内容由遇见数据集搜集并总结生成



