five

liyuesen/zinc_smile

收藏
Hugging Face2023-06-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/liyuesen/zinc_smile
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: smiles dtype: string splits: - name: train num_bytes: 55418311255 num_examples: 1006650595 download_size: 15264546507 dataset_size: 55418311255 --- # Dataset Card for "zinc_smile" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集信息: 特征列: - 字段名:SMILES(Simplified Molecular Input Line Entry System,简化分子线性输入规范),数据类型:字符串 数据集划分: - 划分名称:训练集,占用字节数:55418311255,样本总数:1006650595 下载大小:15264546507 字节 数据集总占用大小:55418311255 字节 --- # 「zinc_smile」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
liyuesen
原始信息汇总

数据集概述

数据集名称

  • 名称: zinc_smile

数据集特征

  • 特征:
    • 名称: smiles
    • 数据类型: string

数据集分割

  • 分割:
    • 名称: train
    • 示例数量: 1006650595
    • 字节大小: 55418311255

数据集大小

  • 下载大小: 15264546507
  • 数据集总大小: 55418311255
搜集汇总
数据集介绍
main_image_url
构建方式
在化学信息学领域,数据集的构建往往依赖于权威数据库的整合与标准化处理。ZINC_SMILE数据集通过系统性地提取ZINC数据库中的分子结构信息,将每个化合物转化为规范的SMILES字符串表示。这一过程确保了数据的化学准确性,同时采用去重和格式校验机制,最终形成了包含超过十亿条记录的庞大数据集,为大规模分子建模提供了坚实基础。
特点
该数据集的核心特点在于其规模宏大且高度规范化,涵盖了广泛的化学空间,能够支持深度学习模型对分子性质的预测与生成任务。所有数据均以简洁的SMILES字符串形式存储,便于高效处理与解析,同时保持了化学结构的完整性。这种统一格式不仅减少了存储开销,也简化了后续的数据预处理流程,为研究人员提供了便捷的探索平台。
使用方法
使用该数据集时,研究人员可直接加载训练集进行模型训练,适用于分子生成、性质预测或虚拟筛选等任务。由于数据已预先分割,用户无需额外划分即可投入应用。建议结合化学信息学工具对SMILES字符串进行解析与增强,以充分发挥数据潜力,推动药物发现与材料设计领域的创新研究。
背景与挑战
背景概述
在化学信息学与药物发现领域,分子表示与生成是核心研究议题,旨在通过计算模型高效探索广阔的化学空间。ZINC数据库作为公开的小分子化合物库,自2005年由加州大学旧金山分校的John J. Irwin和Brian K. Shoichet团队创建以来,已成为虚拟筛选与分子设计的重要资源。该数据集通过简化分子线性输入系统(SMILES)字符串形式,系统化地编码了超过十亿个化合物的结构信息,极大地推动了基于深度学习的分子性质预测、生成与优化研究,为加速新药研发进程提供了坚实的数据基础。
当前挑战
该数据集致力于应对化学空间探索中的核心挑战,即如何从海量分子中高效识别具有特定生物活性的候选化合物,这要求模型具备强大的表示学习与生成能力。在构建过程中,挑战主要源于化学结构的复杂性与数据一致性:SMILES字符串虽简化了分子表示,但其语法规则与唯一性处理需精确标准化,以确保数据质量;同时,整合来自多源的化合物信息并消除冗余,对数据清洗与验证提出了较高要求,这些因素共同影响了数据集的可靠性与后续模型性能。
常用场景
经典使用场景
在化学信息学与药物发现领域,分子表示学习是核心任务之一。ZINC_SMILE数据集以其庞大的规模,为分子生成与性质预测模型提供了丰富的训练资源。研究者常利用该数据集中的SMILES字符串序列,构建深度学习模型,如循环神经网络或Transformer架构,以学习分子的结构特征与化学规律,进而生成具有特定生物活性的新型化合物,加速虚拟筛选过程。
解决学术问题
该数据集有效应对了分子机器学习中数据稀缺与多样性不足的挑战。通过提供超过十亿条分子SMILES序列,它支撑了分子生成、性质预测及逆合成分析等关键研究方向。其意义在于为模型训练提供了充分的化学空间覆盖,促进了生成模型与图神经网络在药物设计中的理论突破,推动了AI驱动的新药研发范式的形成。
衍生相关工作
围绕ZINC_SMILE数据集,衍生了一系列经典研究工作。例如,基于此数据训练的分子生成模型如JT-VAE、GraphINVENT等,在分子优化任务中表现卓越;此外,它常作为基准数据用于评估分子性质预测模型(如MoleculeNet中的部分任务)。这些工作共同深化了AI在化学领域的可解释性与实用性,形成了持续演进的研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作