zpn/lipo

Hugging Face2022-11-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zpn/lipo

下载链接

链接失效反馈

官方服务：

资源简介：

lipo数据集是MoleculeNet的一部分，专注于测量辛醇/水分配系数（logD at pH 7.4）。数据集的注释和语言都是由机器生成的，且数据集是单语的。数据集的大小在1K到10K之间，主要用于生物化学和分子网络领域。数据集的结构包括SMILES和SELFIES分子表示以及目标值logD。数据集被分为训练、验证和测试集，比例为80/10/10，使用骨架分割方法。数据最初由斯坦福的Pande Group生成，并遵循MIT许可发布。

The Lipo dataset is part of MoleculeNet, focusing on measuring the octanol-water partition coefficient (logD at pH 7.4). All annotations and language within the dataset are machine-generated, and the dataset is monolingual. It has a size ranging from 1,000 to 10,000, and is primarily used in the fields of biochemistry and molecular networks. The dataset's structure includes SMILES and SELFIES molecular representations, as well as the target logD values. The dataset is split into training, validation, and test sets at an 80/10/10 ratio using the scaffold splitting method. The data was originally generated by the Pande Group at Stanford University, and is released under the MIT License.

提供机构：

zpn

原始信息汇总

数据集概述

数据集基本信息

名称: lipo
语言: 单语种（monolingual）
许可证: MIT
大小: 1K<n<10K
标签:
- bio
- bio-chem
- molnet
- molecule-net
- biophysics
任务类别: other

数据集描述

数据集摘要

lipo 是 MoleculeNet 中的一个数据集，用于测量辛醇/水分配系数（logD at pH 7.4）的实验结果。

数据集结构

数据字段

smiles: 分子的SMILES表示
selfies: 分子的SELFIES表示
target: 辛醇/水分配系数(logD at pH 7.4)

数据分割

数据集采用80/10/10的训练/验证/测试分割，使用scaffold split方法。

数据集创建

源数据

数据最初由斯坦福大学的Pande Group生成。

许可证信息

该数据集最初以MIT许可证发布。

引用信息

@misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564}, url = {https://arxiv.org/abs/1703.00564}, author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay}, keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences}, title = {MoleculeNet: A Benchmark for Molecular Machine Learning}, publisher = {arXiv}, year = {2017}, copyright = {arXiv.org perpetual, non-exclusive license} }

搜集汇总

数据集介绍

构建方式

在生物化学领域，`lipo`数据集由斯坦福大学的Pande实验室通过机器生成的方式构建，专注于测量辛醇/水分配系数（logD，pH 7.4）的实验结果。该数据集作为MoleculeNet基准的一部分，采用了SMILES和SELFIES两种分子表示方法，并包含了目标值，即辛醇/水分配系数。数据集通过scaffold split方法划分为80%的训练集、10%的验证集和10%的测试集，确保了数据在不同分子结构上的均匀分布。

特点

`lipo`数据集的主要特点在于其专注于生物化学领域中的分子特性研究，特别是辛醇/水分配系数的测量。数据集采用了SMILES和SELFIES两种分子表示方法，提供了丰富的分子结构信息，便于进行多样化的分子建模和预测任务。此外，数据集的80/10/10划分方式确保了训练、验证和测试集之间的独立性，有助于提高模型的泛化能力。

使用方法

`lipo`数据集适用于分子机器学习任务，特别是预测辛醇/水分配系数。用户可以通过加载数据集并提取SMILES或SELFIES表示的分子结构，结合目标值进行模型训练和评估。数据集的80/10/10划分方式为模型提供了明确的训练、验证和测试集，用户可以根据需要调整模型参数，优化预测性能。此外，数据集的MIT许可证允许广泛的使用和分发，促进了其在学术和工业界的应用。

背景与挑战

背景概述

`lipo`数据集是MoleculeNet基准测试的一部分，由斯坦福大学的Pande组于2017年创建。该数据集的核心研究问题是对分子在辛醇/水体系中的分配系数（logD，pH 7.4）进行测量，旨在为分子机器学习提供一个标准化的基准。通过包含分子的SMILES和SELFIES表示以及目标值，`lipo`数据集为生物化学和分子网络领域的研究提供了宝贵的资源，推动了分子特性预测和药物设计等应用的发展。

当前挑战

`lipo`数据集在构建过程中面临的主要挑战包括：首先，数据集的生成依赖于机器生成的注释，这可能导致数据质量的不一致性。其次，分子表示方法（如SMILES和SELFIES）的选择对模型的性能有显著影响，如何平衡表示的准确性和计算复杂度是一个关键问题。此外，数据集的分割采用基于支架的方法，确保了训练集和测试集之间的化学多样性，但也增加了数据处理的复杂性。最后，如何在保持数据集规模适中的同时，确保其涵盖足够的化学空间，是该数据集面临的另一挑战。

常用场景

经典使用场景

在分子生物学与化学领域，`lipo`数据集被广泛用于预测化合物的辛醇/水分配系数（logD at pH 7.4）。通过提供化合物的SMILES和SELFIES表示，研究者能够利用该数据集训练模型，以准确预测分子在不同溶剂中的分布特性。这一应用场景在药物设计和环境科学中尤为重要，因为化合物的溶解性和迁移性直接影响其生物利用度和环境行为。

解决学术问题

`lipo`数据集解决了分子机器学习领域中的一个关键问题，即如何准确预测化合物的辛醇/水分配系数。这一系数是评估分子亲脂性和溶解性的重要参数，对于药物筛选、环境毒理学和化学工程等领域的研究具有重要意义。通过提供高质量的实验数据，该数据集为开发和验证分子特性预测模型提供了坚实的基础，推动了分子机器学习在实际应用中的进展。

衍生相关工作

基于`lipo`数据集，许多研究工作进一步扩展了其在分子机器学习领域的应用。例如，研究者开发了多种深度学习模型，用于更精确地预测分子特性，并将其应用于药物发现和材料科学。此外，该数据集还激发了对分子表示方法（如SMILES和SELFIES）的深入研究，推动了分子编码技术的创新和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集