five

edmanft/zinc250k

收藏
Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/edmanft/zinc250k
下载链接
链接失效反馈
官方服务:
资源简介:
zinc250k数据集包含了用于“使用数据驱动的连续表示进行自动化学设计”论文中的250k个分子子集。数据集包含了原始列(smiles, logP, QED, SAS)以及一个额外的selfies列。该数据集可用于化学语言模型的基准测试或分子属性回归的新模型训练。

zinc250k数据集包含了用于“使用数据驱动的连续表示进行自动化学设计”论文中的250k个分子子集。数据集包含了原始列(smiles, logP, QED, SAS)以及一个额外的selfies列。该数据集可用于化学语言模型的基准测试或分子属性回归的新模型训练。
提供机构:
edmanft
原始信息汇总

数据集概述

数据集名称

  • 名称: zinc250k

数据集来源

  • 来源: 该数据集是论文 "Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules" 中使用的250k分子子集。

数据集内容

  • 包含字段: smiles, logP, QED, SAS, selfies
  • 原始数据链接: https://github.com/aspuru-guzik-group/chemical_vae/blob/main/models/zinc_properties/250k_rndm_zinc_drugs_clean_3.csv

数据集用途

  • 用途: 用于化学语言模型的基准测试或分子属性回归的新模型训练。

数据集许可证

  • 许可证: Apache-2.0
搜集汇总
数据集介绍
main_image_url
构建方式
zinc250k数据集源自于'Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules'论文,其构建基于250,000个分子的子集。该数据集从https://github.com/aspuru-guzik-group/chemical_vae/blob/main/models/zinc_properties/250k_rndm_zinc_drugs_clean_3.csv中提取原始数据,包括分子结构的标准化表示(SMILES)、脂溶性(logP)、药物相似性(QED)和合成可及性评分(SAS),并额外添加了SELFIES列,以提供更丰富的分子描述。
使用方法
使用zinc250k数据集进行化学语言模型的基准测试或训练时,用户可通过HuggingFace的datasets库进行下载。具体操作如下:首先,导入datasets库并调用load_dataset函数,指定数据集名称为'edmanft/zinc250k'。下载完成后,数据集即可用于模型训练或性能评估。此方法简便高效,适合各类化学信息学研究者使用。
背景与挑战
背景概述
zinc250k数据集源自于2017年发表的论文《Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules》,由Aspuru-Guzik研究组创建。该数据集包含了250,000个分子的子集,主要用于化学语言模型的基准测试和分子属性回归任务的训练。数据集的核心研究问题是如何利用数据驱动的连续表示方法自动设计化学分子,这一研究对药物发现和材料科学领域具有重要影响。通过提供分子结构的SMILES表示、logP、QED和SAS等属性,zinc250k为化学信息学和机器学习领域的研究提供了宝贵的资源。
当前挑战
zinc250k数据集在构建过程中面临的主要挑战包括:首先,如何从庞大的化学分子库中筛选出具有代表性的子集,以确保数据集的多样性和广泛性。其次,分子属性的准确测量和标准化处理,如logP、QED和SAS的计算,需要高精度的算法和可靠的实验数据支持。此外,数据集的应用挑战在于如何有效地将化学语言模型与分子属性预测相结合,以实现高效的分子设计和优化。这些挑战不仅涉及技术层面的算法开发,还要求跨学科的合作与创新。
常用场景
经典使用场景
在化学信息学领域,edmanft/zinc250k数据集被广泛用于分子属性预测和化学语言模型的训练与评估。该数据集包含250,000个分子的SMILES表示、logP、QED和SAS等关键属性,为研究人员提供了一个标准化的基准,以测试和优化分子建模算法。通过利用这些数据,研究者能够深入探索分子结构的复杂性,并开发出更精确的分子设计工具。
解决学术问题
edmanft/zinc250k数据集在解决分子建模和化学设计中的关键学术问题方面发挥了重要作用。它不仅为分子属性预测提供了丰富的数据支持,还促进了化学语言模型的创新发展。通过该数据集,研究者能够验证和改进现有的分子表示方法,从而推动了自动化学设计的理论与实践进步。
实际应用
在实际应用中,edmanft/zinc250k数据集被制药和材料科学领域广泛采用。它为药物发现过程中的分子筛选和优化提供了强大的数据支持,帮助科学家快速识别具有潜在药理活性的化合物。此外,该数据集还应用于新材料的设计与开发,通过预测和优化分子属性,加速了新材料的研发进程。
数据集最近研究
最新研究方向
在化学信息学领域,zinc250k数据集因其丰富的分子结构和属性数据而备受关注。最新研究方向主要集中在利用该数据集进行化学语言模型的基准测试和训练,以实现分子属性回归的高效预测。通过引入自编码器和生成对抗网络等深度学习技术,研究人员致力于开发能够自动生成具有特定物理化学性质的分子结构的新方法。这些研究不仅推动了药物设计和材料科学的发展,还为理解分子间的复杂关系提供了新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作