five

lhallee/LD50|药物毒性数据集|化学信息学数据集

收藏
hugging_face2024-07-18 更新2024-07-22 收录
药物毒性
化学信息学
下载链接:
https://hf-mirror.com/datasets/lhallee/LD50
下载链接
链接失效反馈
资源简介:
该数据集包含与药物相关的信息,特征包括药物ID(Drug_ID)、药物名称(Drug)、目标值(Y)、基于RDKit的SMILES表示(base_rdkit_smiles)、目标值的对数(log_Y)以及SELFIES表示(selfies)。数据集分为训练集、验证集和测试集,分别包含5156、1120和1108个样本。数据集的下载大小为766302字节,总大小为1898172字节。

This dataset contains information related to drugs, with features including Drug_ID, Drug, Y, base_rdkit_smiles, log_Y, and selfies. The dataset is divided into training, validation, and test sets, containing 5156, 1120, and 1108 samples respectively. The download size of the dataset is 766302 bytes, and the total size is 1898172 bytes.
提供机构:
lhallee
原始信息汇总

数据集概述

数据集特征

  • Drug_ID: 字符串类型
  • Drug: 字符串类型
  • Y: 浮点数类型
  • base_rdkit_smiles: 字符串类型
  • log_Y: 浮点数类型
  • selfies: 字符串类型

数据集分割

  • train:
    • 字节数: 1142937
    • 样本数: 5156
  • valid:
    • 字节数: 355906
    • 样本数: 1120
  • test:
    • 字节数: 399329
    • 样本数: 1108

数据集大小

  • 下载大小: 766302 字节
  • 总大小: 1898172 字节

配置

  • 配置名称: default
    • 数据文件:
      • train: data/train-*
      • valid: data/valid-*
      • test: data/test-*
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录