lhallee/LD50

Name: lhallee/LD50
Creator: lhallee
Published: 2024-07-18 17:42:29
License: 暂无描述

Hugging Face2024-07-18 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/lhallee/LD50

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与药物相关的信息，特征包括药物ID（Drug_ID）、药物名称（Drug）、目标值（Y）、基于RDKit的SMILES表示（base_rdkit_smiles）、目标值的对数（log_Y）以及SELFIES表示（selfies）。数据集分为训练集、验证集和测试集，分别包含5156、1120和1108个样本。数据集的下载大小为766302字节，总大小为1898172字节。

This dataset contains information related to drugs, with features including Drug_ID, Drug, Y, base_rdkit_smiles, log_Y, and selfies. The dataset is divided into training, validation, and test sets, containing 5156, 1120, and 1108 samples respectively. The download size of the dataset is 766302 bytes, and the total size is 1898172 bytes.

提供机构：

lhallee

原始信息汇总

数据集概述

数据集特征

Drug_ID: 字符串类型
Drug: 字符串类型
Y: 浮点数类型
base_rdkit_smiles: 字符串类型
log_Y: 浮点数类型
selfies: 字符串类型

数据集分割

train:
- 字节数: 1142937
- 样本数: 5156
valid:
- 字节数: 355906
- 样本数: 1120
test:
- 字节数: 399329
- 样本数: 1108

数据集大小

下载大小: 766302 字节
总大小: 1898172 字节

配置

配置名称: default
- 数据文件:
  - train: data/train-*
  - valid: data/valid-*
  - test: data/test-*

搜集汇总

数据集介绍

构建方式

lhallee/LD50数据集的构建采取了对药物分子信息及其毒性数据的系统整合。该数据集通过收集不同药物的Drug_ID、药物名称 Drug、毒性度量 Y、药物的分子结构表示 base_rdkit_smiles 及其自我相似性表示 selfies 等信息，形成了包括训练集、验证集和测试集在内的完整数据集。数据集的每个部分均通过特定的路径指向相应的数据文件，确保数据可被有效加载和处理。

特点

本数据集的特色在于其全面性及多样性，涵盖了5156个训练样本、1120个验证样本以及1108个测试样本。数据字段包括药物的化学标识、毒性数值以及分子结构的多种表示形式，这不仅丰富了数据集的维度，也为研究药物毒性与其化学结构之间的关系提供了丰富的资源。此外，数据集经过精心设计，确保了数据质量与一致性。

使用方法

使用lhallee/LD50数据集时，用户可以根据自身的需求选择合适的配置文件来加载训练集、验证集或测试集。数据集提供了默认配置，其中明确了各数据集的路径，用户仅需遵循这些路径指示，即可高效地获取数据。此外，数据集的结构设计使得其易于集成至各类机器学习框架中，方便进行药物毒性的预测与分析。

背景与挑战

背景概述

lhallee/LD50数据集，专注于药物毒理学领域，其创建旨在为研究人员提供一个用于预测化学物质半数致死量（LD50）的综合性数据资源。该数据集由药物分子信息构成，涵盖了药物标识符（Drug_ID）、药物名称（Drug）、半数致死量（Y）、基于RDKit的SMILES表示（base_rdkit_smiles）、对数转换的半数致死量（log_Y）以及SELFIES分子描述符（selfies）等特征。该数据集的创建，不仅丰富了毒理学数据集的多样性，也为相关领域的研究提供了有力的数据支撑，对于药物安全评估与预测具有显著的研究价值。lhallee/LD50数据集由相关研究人员精心构建，自发布以来，在学术界引起了广泛关注，推动了毒理学与计算生物学领域的发展。

当前挑战

在lhallee/LD50数据集的构建与应用过程中，研究人员面临着多项挑战。首先，药物毒性的预测是一个高度复杂的领域问题，需要准确的特征提取与模型构建。其次，数据集的构建过程中，确保数据的质量和一致性是关键，这要求对原始数据来源进行严格的筛选和清洗。此外，由于药物分子结构的多样性和复杂性，如何有效地表示和利用这些分子信息，提高模型的预测精度，也是当前研究的重要挑战。在数据集的应用层面，如何设计出既符合实际应用需求又具有普适性的预测模型，同样是一个不容忽视的问题。

常用场景

经典使用场景

在药物毒理学研究中，lhallee/LD50数据集以其详尽的药物信息及LD50值（半数致死量），成为探究药物毒性的重要资源。研究者通常利用该数据集进行药物分子与毒性之间的相关性分析，旨在发现影响药物毒性的关键结构特征。

衍生相关工作

基于lhallee/LD50数据集，学术界衍生了众多研究工作，包括毒性预测模型的构建、药物分子设计优化、毒性机制研究等，为药物化学、毒理学等领域贡献了丰硕的研究成果。

数据集最近研究