five

zpn/pcba_686978

收藏
Hugging Face2022-12-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zpn/pcba_686978
下载链接
链接失效反馈
官方服务:
资源简介:
`pcba_686978`是MoleculeNet中的一个数据集,来源于PubChem BioAssay (PCBA)数据库,包含小分子的生物活性数据。数据集包含SMILES和SELFIES分子表示以及生物测定的测量结果(活性/非活性)。数据集使用随机分割为80/10/10的训练/验证/测试集。数据最初由斯坦福大学的Pande Group生成,并以MIT许可证发布。
提供机构:
zpn
原始信息汇总

数据集概述

基本信息

  • 名称: pcba_686978
  • 语言: 单语种(monolingual)
  • 许可证: MIT
  • 大小: 100K<n<1M
  • 标签: 生物(bio)、生物化学(bio-chem)、分子网络(molnet)、分子网(molecule-net)、生物物理学(biophysics)
  • 任务类别: 其他(other)

数据集描述

  • 摘要: pcba_686978 是 MoleculeNet 中的一个数据集,源自 PubChem BioAssay (PCBA) 数据库,包含小分子的生物活性数据,是通过高通量筛选生成的。
  • 任务与排行榜: 未提及具体任务和排行榜。
  • 语言: 未提及具体语言信息。

数据集结构

  • 数据实例: 包含 smilesselfiestarget 三个数据字段。
    • smiles: 分子结构的 SMILES 表示。
    • selfies: 分子结构的 SELFIES 表示。
    • target: 生物测定的测量结果(活性/非活性)。
  • 数据分割: 数据集被随机分割为 80/10/10 的训练/验证/测试集。

数据集创建

  • 来源数据: 数据最初由斯坦福大学的 Pande 小组生成。

  • 许可证: 数据集最初以 MIT 许可证发布。

  • 引用信息:

    @misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564}, url = {https://arxiv.org/abs/1703.00564}, author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay}, keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences}, title = {MoleculeNet: A Benchmark for Molecular Machine Learning}, publisher = {arXiv}, year = {2017}, copyright = {arXiv.org perpetual, non-exclusive license} }

  • 贡献者: 感谢 @zanussbaum 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作