five

Derify/msr-acc-tae25-regression

收藏
Hugging Face2025-09-01 更新2025-11-01 收录
下载链接:
https://hf-mirror.com/datasets/Derify/msr-acc-tae25-regression
下载链接
链接失效反馈
官方服务:
资源简介:
MSR-ACC TAE25回归数据集是一个处理过的版本,源自Microsoft Research Accurate Chemistry Collection (MSR-ACC) TAE25数据集,包含使用各种量子化学方法计算得到的分子的热化学数据,具体为总原子化能量(Total Atomization Energies, TAE)。该数据集提供了SMILES表示形式、训练/验证/测试数据集划分,用于机器学习应用。数据集处理流程包括SMILES生成和数据集划分。每个Parquet文件包含分子文件名、分子名称、SMILES字符串、原子符号、原子编号、三维坐标、分子连接信息以及使用不同DFT方法和基组计算的总原子化能量等列。数据集还包括了一些使用注意事项,如缺失值处理、SMILES质量以及测试集的构成。

The MSR-ACC TAE25 Regression Dataset is a processed version of the Microsoft Research Accurate Chemistry Collection (MSR-ACC) TAE25 dataset, containing thermochemical data for molecules with computed Total Atomization Energies (TAE) using various quantum chemical methods. It provides SMILES representations, train/validation/test splits for machine learning applications, and includes data processing pipelines such as SMILES generation and dataset splitting. Each Parquet file contains columns like filename, molecular name, SMILES string, atomic symbols, atomic numbers, 3D coordinates, molecular connectivity information, and Total Atomization Energies computed with different DFT methods and basis sets. Usage notes include handling missing values, SMILES quality, and the composition of the test set.
提供机构:
Derify
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作