five

PubChem|化学分子数据集|机器学习数据集

收藏
huggingface2024-12-12 更新2024-12-13 收录
化学分子
机器学习
下载链接:
https://huggingface.co/datasets/haydn-jones/PubChem
下载链接
链接失效反馈
资源简介:
该数据集主要用于化学、生物学和医学领域的研究,包含CID、SMILES和SELFIES三种特征,分别用于标识化合物、描述分子结构和自我描述分子。数据集被划分为训练集、验证集和测试集,分别包含大量样本,总数据量达到36.6TB,下载大小为12.6GB。
创建时间:
2024-12-11
原始信息汇总

PubChem 数据集概述

数据集信息

特征

  • CID: 化学物质标识符,数据类型为 int64
  • SMILES: 化学结构的简化分子输入线性表示,数据类型为 large_string
  • SELFIES: 化学结构的符号化表示,数据类型为 string

数据分割

  • train: 训练集,包含 95,207,924 个样本,大小为 29,280,467,548.8 字节。
  • val: 验证集,包含 11,900,990 个样本,大小为 3,660,058,289.828831 字节。
  • test: 测试集,包含 11,900,991 个样本,大小为 3,660,058,597.371169 字节。

数据集大小

  • 下载大小: 12,629,892,833 字节。
  • 数据集总大小: 36,600,584,436.0 字节。

配置

  • default: 默认配置,包含训练、验证和测试集的数据文件路径。

标签

  • chemistry: 化学
  • biology: 生物学
  • medical: 医学

数据集规模

  • 100M<n<1B: 数据集规模在 100M 到 1B 之间。
AI搜集汇总
数据集介绍
main_image_url
构建方式
PubChem数据集的构建基于全球化学和生物医学领域的广泛研究需求,通过系统性地收集和整理化学物质的详细信息,包括其化学标识符(如CID)、SMILES表示法以及SELFIES编码。这些数据来源于多个权威数据库和实验研究,经过严格的筛选和验证,确保了数据的高质量和可靠性。数据集的划分遵循标准的训练、验证和测试集比例,以支持不同研究阶段的模型训练和评估。
特点
PubChem数据集以其庞大的规模和多样的化学信息著称,涵盖了超过9500万种化学物质的详细记录。其特点在于不仅提供了传统的SMILES表示法,还引入了SELFIES编码,增强了化学结构的表达能力。此外,数据集的结构化设计使得其能够广泛应用于化学信息学、药物发现和生物医学研究等多个领域,为研究人员提供了丰富的实验和分析资源。
使用方法
PubChem数据集的使用方法灵活多样,研究人员可以根据需求选择不同的数据子集进行分析。首先,通过CID或SMILES/SELFIES编码可以快速检索和识别特定的化学物质。其次,数据集的训练、验证和测试集划分为机器学习和深度学习模型的开发提供了标准化的数据支持。最后,结合化学信息学工具和生物医学数据库,PubChem数据集能够支持从基础研究到应用开发的多种研究路径。
背景与挑战
背景概述
PubChem数据集,作为化学与生物医学领域的重要资源,由美国国家生物技术信息中心(NCBI)创建并维护。该数据集的核心研究问题聚焦于化学分子的系统性编目与标准化表示,旨在为全球科研人员提供一个全面、准确的化学信息数据库。通过收录大量化合物的CID(化合物标识符)、SMILES(简化分子线性输入系统)和SELFIES(自我解释的分子输入系统)等关键特征,PubChem极大地促进了药物发现、材料科学及环境研究等领域的进展。自创建以来,PubChem已成为化学信息学和生物信息学研究的基础工具,对推动相关领域的科学发现和技术创新具有深远影响。
当前挑战
尽管PubChem数据集在化学与生物医学领域具有广泛应用,但其构建与维护过程中仍面临诸多挑战。首先,化学分子的多样性和复杂性使得数据的标准化与统一表示成为一个难题,尤其是在处理异构体和立体化学信息时。其次,随着新化合物的不断发现和合成,数据集的实时更新与扩展需求对数据管理技术提出了更高要求。此外,数据集的规模庞大,如何高效地存储、检索和分析这些数据,以满足不同研究需求,也是当前面临的重要挑战。最后,确保数据的质量和准确性,避免错误信息对科研工作的影响,是PubChem持续面临的任务。
常用场景
经典使用场景
PubChem数据集在化学与生物学领域中被广泛应用于分子结构与性质的关联研究。其经典使用场景包括通过SMILES和SELFIES格式对分子进行编码,进而进行分子性质预测、药物筛选以及化学反应模拟等任务。这些任务不仅有助于理解分子间的相互作用,还能为新药研发提供理论支持。
解决学术问题
PubChem数据集解决了化学与生物学领域中分子结构与性质关联的复杂性问题。通过提供大规模的分子数据,该数据集使得研究人员能够更精确地预测分子的物理化学性质、生物活性以及毒性,从而推动了分子设计与药物发现领域的研究进展。
衍生相关工作
基于PubChem数据集,许多经典工作得以开展,如分子生成模型、化学反应预测模型以及药物分子设计算法等。这些研究不仅深化了对分子结构与性质关系的理解,还推动了机器学习在化学领域的应用,为未来的分子科学与药物研发提供了新的工具和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

DermNet

DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。

www.dermnetnz.org 收录