maykcaldas/smiles-transformers|化学信息学数据集|药物设计数据集

hugging_face2023-04-04 更新2024-03-04 收录

化学信息学

药物设计

下载链接：

https://hf-mirror.com/datasets/maykcaldas/smiles-transformers

下载链接

链接失效反馈

资源简介：

smiles-transformer-dataset是一个包含分子SMILES字符串、分子公式及多种化学性质（如氢键供体和受体数量、分子LogP值、杂原子数量、环数、可旋转键数、芳香键数、酸基和碱基数量等）的数据集。该数据集主要用于训练、测试和验证，包含详细的特征信息和数据集大小。

提供机构：

maykcaldas

原始信息汇总

数据集概述

数据集名称

pretty_name: smiles-transformer-dataset

许可协议

license: MIT

数据集大小

size_categories: 100M<n<1B

数据集特征

text: Molecule SMILES (string)
formula: Molecular formula (string)
NumHDonors: Number of hydrogen bond donors (int64)
NumHAcceptors: Number of hydrogen bond acceptors (int64)
MolLogP: Wildman-Crippen LogP (float64)
NumHeteroatoms: Number of hetero atoms (int64)
RingCount: Number of rings (int64)
NumRotatableBonds: Number of rotatable bonds (int64)
NumAromaticBonds: Number of aromatic bonds (int64)
NumAcidGroups: Number of acid groups (int64)
NumBasicGroups: Number of basic groups (int64)
Apol: (float64)

数据集划分

train:
- num_bytes: 136431671689
- num_examples: 908086717
test:
- num_bytes: 7437928022
- num_examples: 50487919
validation:
- num_bytes: 7621324737
- num_examples: 50605067

数据集大小

download_size: 34998665406
dataset_size: 151490924448

AI搜集汇总

数据集介绍

构建方式

在化学信息学领域，maykcaldas/smiles-transformers数据集的构建基于分子结构的SMILES表示法，通过系统地收集和整理大量分子数据，确保了数据集的广泛性和代表性。数据集的构建过程中，不仅包含了分子的SMILES字符串和分子式，还详细记录了分子的物理化学性质，如氢键供体和受体的数量、LogP值、杂原子数量等，这些特征的全面性为后续的分子性质预测和药物设计提供了坚实的基础。

特点

maykcaldas/smiles-transformers数据集的显著特点在于其丰富的分子特征描述和大规模的数据量。数据集不仅涵盖了分子的基本结构信息，还详细记录了分子的多种物理化学性质，如氢键供体和受体的数量、LogP值等，这些特征的全面性使得该数据集在分子性质预测和药物设计领域具有极高的应用价值。此外，数据集的规模庞大，包含超过9亿条训练样本，为深度学习模型的训练提供了充足的数据支持。

使用方法

maykcaldas/smiles-transformers数据集适用于多种化学信息学和药物设计任务。用户可以通过加载数据集中的训练、测试和验证集，利用分子的SMILES表示和详细的物理化学性质特征，训练和评估分子性质预测模型。此外，数据集的丰富特征和大规模数据量也使其成为开发和优化药物设计算法的重要资源。在使用过程中，用户应根据具体任务需求选择合适的特征和数据集分割，以确保模型的性能和泛化能力。

背景与挑战

背景概述

在化学信息学领域，分子结构的表示和分析一直是核心研究课题。maykcaldas/smiles-transformers数据集应运而生，旨在通过SMILES（简化分子线性输入系统）字符串和相关分子属性，推动分子建模和机器学习应用的发展。该数据集由maykcaldas创建，涵盖了超过9亿个分子实例，包括分子公式、氢键供体和受体数量、LogP值、杂原子数量、环数、可旋转键数、芳香键数、酸性和碱性基团数以及Apol值等特征。这些数据为化学和生物信息学领域的研究人员提供了丰富的资源，有助于开发更精确的分子预测模型和药物设计工具。

当前挑战

尽管maykcaldas/smiles-transformers数据集在分子建模领域具有重要意义，但其构建和应用过程中仍面临诸多挑战。首先，数据集的规模庞大，处理和存储这些数据需要高效的计算资源和存储解决方案。其次，SMILES字符串的多样性和复杂性增加了数据预处理的难度，确保数据质量和一致性是一个持续的挑战。此外，如何有效地将这些分子属性与机器学习模型结合，以提高预测精度和模型泛化能力，也是当前研究的重点和难点。

常用场景

经典使用场景

在化学信息学领域，maykcaldas/smiles-transformers数据集的经典使用场景主要集中在分子结构预测与分析。通过该数据集，研究者能够利用SMILES（简化分子线性输入系统）字符串来训练和验证分子性质预测模型。这些模型可以有效地预测分子的物理化学性质，如LogP值、氢键供体和受体的数量，以及分子的其他关键特性。这种应用不仅提升了分子设计的效率，还为新药研发提供了强有力的工具。

实际应用

在实际应用中，maykcaldas/smiles-transformers数据集被广泛用于药物发现和材料科学领域。制药公司利用该数据集训练的模型来筛选潜在的药物候选分子，通过预测其生物活性和毒性，大大缩短了药物研发周期。此外，材料科学家也利用这些模型来设计和优化新型材料的性能，如电池材料和催化剂，从而推动了材料科学的创新和发展。

衍生相关工作

maykcaldas/smiles-transformers数据集的发布催生了众多相关研究工作。例如，基于该数据集的分子性质预测模型已被用于开发新的药物筛选算法，显著提高了药物发现的效率。同时，研究者们还利用该数据集进行分子生成模型的训练，探索如何通过机器学习生成具有特定性质的新分子。这些衍生工作不仅丰富了化学信息学的研究内容，也为实际应用提供了更多可能性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

Eurovision Song Contest Dataset

Eurovision Song Contest数据集是一个免费提供的数据集，包含1735首参赛歌曲的音频特征、元数据、比赛排名和投票数据，这些歌曲参与了从1956年到2023年的Eurovision Song Contest。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。