smiles-molecules-chembl|药物发现数据集|分子生成数据集

huggingface2024-08-06 更新2024-12-12 收录

药物发现

分子生成

下载链接：

https://huggingface.co/datasets/antoinebcx/smiles-molecules-chembl

下载链接

链接失效反馈

资源简介：

ChEMBL是一个人工整理的具有药物类似特性的生物活性分子数据库，它整合了化学、生物活性和基因组数据，以促进基因组信息转化为有效的新药物。该数据集包含1,941,405个分子，分为训练集、验证集和测试集，用于基于分布学习和目标导向的分子生成任务，即生成具有期望属性的新分子。

创建时间：

2024-08-06

原始信息汇总

ChEMBL Molecule Generation Dataset

数据集描述

ChEMBL 是一个人工 curated 的生物活性分子数据库，具有药物样特性。它汇集了化学、生物活性和基因组数据，以促进基因组信息转化为有效的新药物。

任务描述

适用于基于分布学习和目标导向的分子生成任务。即生成具有某些预定义属性的新分子。

数据集统计

总共包含 1,941,405 个分子
- 训练集：1,358,980 个分子
- 验证集：194,123 个分子
- 测试集：388,302 个分子

数据集由 Therapeutics Data Commons 进行随机分割，并移除了缺失值。

参考文献

Mendez, David, et al. “ChEMBL: towards direct deposition of bioassay data.” Nucleic acids research 47.D1 (2019): D930-D940.
Davies, Mark, et al. “ChEMBL web services: streamlining access to drug discovery data and utilities.” Nucleic acids research 43.W1 (2015): W612-W620.

AI搜集汇总

数据集介绍

构建方式

ChEMBL Molecule Generation Dataset的构建基于ChEMBL数据库，该数据库是一个经过人工整理的生物活性分子数据库，具有药物样特性。数据集的构建过程包括从ChEMBL中提取分子数据，并通过Therapeutics Data Commons进行随机分割，确保训练集、验证集和测试集的合理分布。缺失值在预处理阶段已被移除，以确保数据的完整性和可靠性。

特点

该数据集包含1,941,405个分子，其中1,358,980个用于训练，194,123个用于验证，388,302个用于测试。这些分子具有多样化的化学结构和生物活性，适用于基于分布学习和目标导向的分子生成任务。数据集的多样性和规模使其成为药物发现和分子设计领域的重要资源。

使用方法

ChEMBL Molecule Generation Dataset可用于训练和评估分子生成模型，特别是那些旨在生成具有特定生物活性的新分子的模型。研究人员可以利用该数据集进行分布学习，探索分子空间的多样性，或通过目标导向的方法生成具有特定药物特性的分子。数据集的分割方式便于模型的训练、验证和测试，确保模型在不同阶段的性能评估。

背景与挑战

背景概述

ChEMBL分子生成数据集（smiles-molecules-chembl）源自ChEMBL数据库，该数据库是一个手工整理的生物活性分子数据库，专注于具有药物特性的化合物。ChEMBL数据库整合了化学、生物活性和基因组数据，旨在加速基因组信息向有效新药的转化。该数据集由Therapeutics Data Commons进行随机分割，包含1,941,405个分子，分为训练集、验证集和测试集。其主要研究问题在于通过分布学习和目标导向的分子生成方法，生成具有特定生物活性的新分子，为新药研发提供支持。ChEMBL数据库的创建和发展得到了广泛认可，相关研究文献如Mendez等人（2019）和Davies等人（2015）的工作，为药物发现领域提供了重要的数据资源和工具。

当前挑战

smiles-molecules-chembl数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，分子生成任务需要解决如何高效生成具有特定生物活性的新分子，这涉及到复杂的化学空间探索和生物活性预测。尽管ChEMBL数据库提供了丰富的生物活性数据，但如何从海量数据中提取有效特征并生成符合目标性质的分子仍是一个难题。其次，在数据集构建过程中，挑战主要来自于数据的清洗和标准化。ChEMBL数据库中的数据来源多样，部分数据可能存在缺失或噪声，如何确保数据质量并生成可靠的分割数据集是构建过程中的关键问题。此外，分子生成任务还需要考虑化学结构的多样性和合成可行性，这对模型的泛化能力和实用性提出了更高要求。

常用场景

经典使用场景

在药物发现和化学信息学领域，smiles-molecules-chembl数据集被广泛用于分子生成任务。研究人员利用该数据集训练模型，以生成具有特定生物活性的新分子结构。这些模型通常基于深度学习方法，如变分自编码器（VAE）或生成对抗网络（GAN），旨在探索化学空间中的潜在药物候选分子。

衍生相关工作

基于smiles-molecules-chembl数据集，许多经典的研究工作得以展开。例如，研究人员开发了多种分子生成模型，如基于强化学习的分子优化方法和基于图神经网络的分子生成框架。这些工作不仅推动了药物发现领域的发展，还为化学信息学和计算化学提供了新的研究方向。

数据集最近研究

最新研究方向

在药物发现和分子生成领域，smiles-molecules-chembl数据集正成为研究热点。该数据集基于ChEMBL数据库，包含了近200万种具有药物活性的分子，为分布学习和目标导向的分子生成任务提供了丰富的数据支持。近年来，研究人员利用该数据集开发了多种基于深度学习的分子生成模型，旨在生成具有特定生物活性的新分子。这些模型不仅能够加速药物筛选过程，还能通过优化分子结构来提高药物的疗效和安全性。此外，该数据集在化学信息学和计算化学领域的应用也日益广泛，推动了药物设计与发现技术的革新。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

TPTP

TPTP（Thousands of Problems for Theorem Provers）是一个包含大量逻辑问题的数据集，主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题，如一阶逻辑、高阶逻辑、命题逻辑等。

www.tptp.org 收录

Chinese-Roleplay-Novel

该数据集旨在填补中文角色扮演领域中交互游戏方向的开源数据空白。基于4500条小说文本，构建了约260条酒馆风格的多轮对话数据，每轮对话均包含详细的状态数据，如时间、角色状态、任务进度等。数据集结构包括世界观、场景、角色、对话内容等，状态信息以列表、表格、JSON等多种格式呈现。

huggingface 收录