five

zpn/clearance

收藏
Hugging Face2022-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zpn/clearance
下载链接
链接失效反馈
官方服务:
资源简介:
`clearance`数据集是Chemberta-2基准测试的一部分,包含由机器生成的分子数据,主要用于生物、生物化学、分子网络和生物物理学领域。每个数据实例包含分子的SMILES和SELFIES表示,目标字段未明确说明。数据集采用80/10/10的训练/验证/测试分割,使用骨架分割方法。数据最初由斯坦福大学的Pande Group生成,并遵循MIT许可证发布。
提供机构:
zpn
原始信息汇总

数据集概述

数据集基本信息

  • 名称: clearance
  • 语言: 单语种(monolingual)
  • 许可证: MIT
  • 大小: 小于1000条记录(n<1K)
  • 标签: bio, bio-chem, molnet, molecule-net, biophysics
  • 任务类别: other

数据集描述

数据集总结

数据集结构

数据字段

  • smiles: 分子SMILES表示
  • selfies: 分子SELFIES表示
  • target: 目标值

数据分割

  • 数据集采用80/10/10的训练/验证/测试分割,使用scaffold split方法。

数据集创建

源数据

  • 数据最初由斯坦福大学的Pande Group生成。

许可证信息

  • 该数据集最初发布于MIT许可证下。

引用信息

@misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564}, url = {https://arxiv.org/abs/1703.00564}, author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay}, keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences}, title = {MoleculeNet: A Benchmark for Molecular Machine Learning}, publisher = {arXiv}, year = {2017}, copyright = {arXiv.org perpetual, non-exclusive license} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作