maomlab/B3DB|药物化学数据集|生物医学数据集
收藏Blood-Brain Barrier Database (B3DB)
数据集概述
B3DB 是一个从 50 个已发表资源中整理的关于血脑屏障渗透性的分类和数值测量数据集。
任务类别
- 表格分类
- 表格回归
标签
- 化学
- 生物学
- 医学
数据集名称
Blood-Brain Barrier Database (B3DB)
数据集摘要
整理了 50 个已发表资源的血脑屏障渗透性的分类和数值测量数据。
引用
@article{ Meng_A_curated_diverse_2021, author = {Meng, Fanwang and Xi, Yang and Huang, Jinfeng and Ayers, Paul W.}, doi = {10.1038/s41597-021-01069-5}, journal = {Scientific Data}, number = {289}, title = {A curated diverse molecular database of blood-brain barrier permeability with chemical descriptors}, volume = {8}, year = {2021}, url = {https://www.nature.com/articles/s41597-021-01069-5}, publisher = {Springer Nature} }
数据集大小
- 1K<n<10K
配置名称
- B3DB_classification
- B3DB_classification_extended
- B3DB_regression
- B3DB_regression_extended
配置详情
B3DB_classification
- 特征:
- NO. (int64)
- compound_name (string)
- IUPAC_name (string)
- SMILES (string)
- CID (float64)
- logBB (float64)
- BBB+/BBB- (class_label)
- Inchi (string)
- threshold (float64)
- reference (string)
- group (string)
- comments (string)
- ClusterNo (int64)
- MolCount (int64)
- 分割:
- train: 5856 个样本, 656000 字节
- test: 1951 个样本, 218640 字节
B3DB_classification_extended
- 分割:
- train: 5856 个样本, 76221824 字节
- test: 1951 个样本, 25394344 字节
B3DB_regression
- 特征:
- NO. (int64)
- compound_name (string)
- IUPAC_name (string)
- SMILES (string)
- CID (string)
- logBB (float64)
- Inchi (string)
- reference (string)
- smiles_result (string)
- group (string)
- comments (float64)
- ClusterNo (int64)
- MolCount (int64)
- 分割:
- train: 795 个样本, 82808 字节
- test: 263 个样本, 27480 字节
B3DB_regression_extended
- 分割:
- train: 795 个样本, 10347848 字节
- test: 263 个样本, 3423336 字节
Titanic Dataset
Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics
kaggle 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
rule34lol-images-part1
该数据集包含来自rule34.lol图像板的196,000个图像文件的元数据。元数据包括URL、标签、文件信息和点赞数。实际图像文件存储在zip存档中,每个存档包含1000个图像。该数据集是更大集合的一部分,分为Part 1和Part 2。数据集采用CC0许可,允许免费使用、修改和分发,无需署名。
huggingface 收录