five

smiles-molecules-moses

收藏
Hugging Face2024-08-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/antoinebcx/smiles-molecules-moses
下载链接
链接失效反馈
官方服务:
资源简介:
MOSES分子生成数据集是一个用于基于分布学习的分子生成优化的基准平台。该数据集从ZINC Clean Leads数据集中经过处理,提供了适合优化的新分子数据。数据集包含1,936,962个分子,分为训练集(1,355,874个分子)、验证集(193,696个分子)和测试集(387,392个分子)。

The MOSES Molecular Generation Dataset is a benchmark platform for distribution learning-based molecular generation optimization. Derived and processed from the ZINC Clean Leads dataset, it provides novel molecular data suitable for optimization tasks. The dataset contains a total of 1,936,962 molecules, which are split into three subsets: a training set with 1,355,874 molecules, a validation set with 193,696 molecules, and a test set with 387,392 molecules.
创建时间:
2024-08-06
原始信息汇总

MOSES 分子生成数据集

数据集描述

Molecular Sets (MOSES) 是一个基于分布学习的分子生成基准平台。该平台提供了一个经过清洗的分子数据集,这些分子非常适合优化。数据集来源于 ZINC Clean Leads 数据集。

任务描述

适用于基于分布学习和目标导向的分子生成任务。即生成具有理想性质的新分子,这些性质由某些预言机测量。

数据集统计

包含 1,936,962 个分子,具体分布如下:

  • 训练集:1,355,874 个分子
  • 验证集:193,696 个分子
  • 测试集:387,392 个分子

数据集的随机分割由 Therapeutics Data Commons 完成。

参考文献

[1] Polykovskiy 等人,“Molecular Sets (MOSES): A Benchmarking Platform for Molecular Generation Models.”, Frontiers in Pharmacology. (2020).

搜集汇总
数据集介绍
main_image_url
构建方式
MOSES分子生成数据集基于ZINC Clean Leads数据集进行构建,经过严格的清洗和优化处理,确保了数据的质量和适用性。该数据集由Therapeutics Data Commons进行了随机划分,包含训练集、验证集和测试集,分别用于模型训练、验证和测试。这种构建方式旨在为分子生成模型提供一个标准化的基准平台,以支持分布学习和目标导向的分子生成任务。
使用方法
MOSES数据集主要用于分布学习和目标导向的分子生成任务。研究人员可以使用该数据集训练分子生成模型,并通过验证集和测试集评估模型的性能。数据集中的分子结构信息可用于优化生成模型,以生成具有特定性质的新分子。此外,MOSES数据集还可用于比较不同分子生成算法的效果,推动分子生成领域的研究进展。
背景与挑战
背景概述
MOSES分子生成数据集(Molecular Sets, MOSES)由Polykovskiy等人于2020年提出,旨在为基于分布学习的分子生成模型提供一个基准平台。该数据集源自ZINC Clean Leads数据集,经过清洗和优化处理,包含了1,936,962个分子,分为训练集、验证集和测试集。MOSES的创建旨在推动分子生成领域的研究,特别是在药物发现和材料科学中,通过生成具有特定性质的新分子来优化实验设计。该数据集已成为分子生成模型评估的重要基准,对相关领域的研究产生了深远影响。
当前挑战
MOSES数据集在解决分子生成问题时面临多重挑战。首先,分子生成任务要求模型能够生成具有特定化学性质的新分子,这需要模型具备高度的化学知识理解能力。其次,数据集的构建过程中,如何从ZINC Clean Leads数据集中筛选出适合优化任务的分子,并确保数据的多样性和代表性,是一个复杂的过程。此外,分子生成模型的评估标准尚未统一,如何设计合理的评估指标以准确衡量生成分子的质量和多样性,仍是当前研究中的一大难题。这些挑战不仅影响了模型的性能,也对分子生成领域的进一步发展提出了更高的要求。
常用场景
经典使用场景
MOSES数据集在分子生成领域具有广泛的应用,特别是在基于分布学习的分子生成任务中。研究人员利用该数据集训练和评估生成模型,以生成具有特定化学性质的新分子。这些模型通常用于药物发现和材料科学领域,帮助科学家快速筛选出潜在的候选分子。
解决学术问题
MOSES数据集解决了分子生成模型在分布学习和目标导向生成中的关键问题。通过提供大量经过清洗的分子数据,该数据集使得研究人员能够更准确地评估生成模型的性能,并推动分子生成技术的发展。这对于药物发现和材料设计领域具有重要意义,能够显著提高新分子的筛选效率。
实际应用
在实际应用中,MOSES数据集被广泛用于药物发现和材料设计。通过生成具有特定化学性质的新分子,研究人员可以快速筛选出潜在的药物候选物或新型材料。这不仅加速了药物研发的进程,还为材料科学领域提供了新的研究方向。
数据集最近研究
最新研究方向
近年来,基于分子生成模型的药物设计领域取得了显著进展,MOSES数据集作为该领域的重要基准平台,推动了分子生成技术的发展。研究者们利用MOSES数据集,探索了基于分布学习和目标导向的分子生成方法,旨在生成具有特定生物活性和药物特性的新分子。这些研究不仅提升了分子生成的多样性和有效性,还为药物发现提供了新的工具和思路。随着深度学习技术的不断进步,MOSES数据集在药物设计、材料科学等领域的应用前景愈发广阔,成为推动相关研究的重要驱动力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作