scikit-fingerprints/MoleculeNet_ESOL|化学数据集|机器学习数据集

hugging_face2024-07-18 更新2024-07-22 收录

化学

机器学习

下载链接：

https://hf-mirror.com/datasets/scikit-fingerprints/MoleculeNet_ESOL

下载链接

链接失效反馈

资源简介：

MoleculeNet ESOL数据集是MoleculeNet基准测试的一部分，用于预测水溶性。目标值是经过对数变换的，单位为每升摩尔数的对数（log Mol/L）。数据集包含1128个样本，推荐使用scaffold分割方法，评估指标为均方根误差（RMSE）。

The MoleculeNet ESOL dataset is part of the MoleculeNet benchmark, designed to predict aqueous solubility directly from molecular structure. It contains 1128 samples, with a regression task type. The targets are log-transformed, with units in log mols per litre (log Mol/L). The recommended split is scaffold, and the recommended metric is RMSE. This dataset is relevant to chemistry, biology, and medical fields, suitable for tabular regression and graph machine learning tasks.

提供机构：

scikit-fingerprints

原始信息汇总

MoleculeNet ESOL 数据集概述

基本信息

数据集名称: MoleculeNet ESOL
任务类别:
- 表格回归
- 图机器学习
- 表格分类
标签:
- 化学
- 生物学
- 医学
数据集大小: 1K < n < 10K
配置:
- 配置名称: default
- 数据文件:
  - 分割: train
  - 路径: "esol.csv"

任务描述

任务: 预测水溶性
目标: 对数变换后的溶解度，单位为 log mols per litre (log Mol/L)

数据集特征

任务数量: 1
任务类型: 回归
总样本数: 1128
推荐分割方式: scaffold
推荐评估指标: RMSE

参考文献

John S. Delaney, "ESOL: Estimating Aqueous Solubility Directly from Molecular Structure", J. Chem. Inf. Comput. Sci. 2004, 44, 3, 1000–1005
Wu, Zhenqin, et al., "MoleculeNet: a benchmark for molecular machine learning", Chemical Science 9.2 (2018): 513-530

AI搜集汇总

数据集介绍

构建方式

MoleculeNet ESOL数据集是MoleculeNet基准测试的一部分，旨在通过分子指纹技术预测水溶性。该数据集的构建基于化学信息学领域的研究成果，通过收集1128个分子的结构数据，并对其水溶性进行对数转换，以log Mol/L为单位进行量化。数据集采用了scaffold splitting策略，以保持数据的一致性和预测任务的可靠性。

特点

MoleculeNet ESOL数据集的特点在于其专注于水溶性的预测任务，属于回归问题。数据集包含单一任务，样本总量为1128个。其推荐的评价指标为均方根误差（RMSE），反映了预测值与实际值之间的偏差。此外，数据集的构建考虑了化学结构的复杂性，适合于表格回归和图形机器学习任务。

使用方法

使用MoleculeNet ESOL数据集时，推荐采用scaffold splitting方法进行数据划分，以保留相似的化学结构在相同的训练或测试集中。数据集可通过scikit-fingerprints库进行访问和处理。用户需关注数据集的回归任务特性，并根据推荐的评价指标进行模型性能的评估。

背景与挑战

背景概述

MoleculeNet ESOL数据集，作为MoleculeNet基准的一部分，是由John S. Delaney在2004年提出的ESOL（Estimated SOLubility）数据集发展而来。该数据集由Zhenqin Wu等人进一步整合入MoleculeNet中，旨在为分子机器学习领域提供一个统一的评测标准。MoleculeNet ESOL数据集的核心研究问题是预测水溶性，其目标值经过对数转换，单位为对每升摩尔（log Mol/L）。该数据集包含1128个样本，广泛应用于化学、生物学和医学领域，对相关领域的研究具有重要的推动作用。

当前挑战

MoleculeNet ESOL数据集在解决水溶性预测问题的过程中，面临着如何准确预测分子特性的挑战。此外，在构建过程中，数据集的构建者需克服数据采集、处理和特征提取等多方面的技术难题，以确保数据质量与适用性。具体挑战包括数据集的多样性与代表性，以及如何平衡模型复杂度与预测精度之间的关系。

常用场景

经典使用场景

在化学与生物学领域，MoleculeNet ESOL数据集被广泛应用于预测分子在水中的溶解度。此数据集通过提供分子的结构和对应的溶解度信息，为科研人员提供了一种评估分子特性的重要工具。经典的使用场景包括通过分子指纹技术进行特征提取，进而利用机器学习模型对溶解度进行回归预测。

衍生相关工作

基于MoleculeNet ESOL数据集，衍生的相关工作涵盖了多种分子特性预测任务，如分子毒性、生物活性等。这些研究进一步拓展了数据集的应用范围，促进了分子机器学习领域的发展，为化学信息学和药物设计领域贡献了重要研究成果。

数据集最近研究

最新研究方向

在化学信息学领域，MoleculeNet ESOL数据集以其对水溶性预测的准确性成为研究的热点。近期研究主要聚焦于深度学习模型在预测分子特性的应用，特别是在提升模型对水溶性的预估能力上取得了显著进展。该数据集不仅为药物设计和分子筛选提供了有力支持，而且在环境科学和生物医学研究中也具有广泛的应用价值，其研究成果为相关领域的发展提供了重要参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

CMNEE（Chinese Military News Event Extraction dataset）

CMNEE（Chinese Military News Event Extraction dataset）是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件，所有事件均基于预定义的军事领域模式人工标注，包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略，首先通过权威网站获取军事新闻文本并预处理，然后依据触发词字典进行预标注，经领域专家审核后形成事件模式。随后，通过人工分批、迭代标注并持续修正，直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集，对推动相关研究具有显著意义。

github 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录