Genetic diversity and hybrid formation in Central European clubmosses|植物遗传学数据集|分子生物学数据集
收藏giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9
该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。
huggingface 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
QM9
该数据集名为QM9,包含了134,000个分子的信息,可用于生成点云的建模工作,同时也可应用于分子动力学的研究以及点云生成任务中。
arXiv 收录
ScanNet v2
ScanNet 是一个 RGB-D 视频数据集,包含 1500 多次扫描中的 250 万个视图,并使用 3D 相机姿势、表面重建和实例级语义分割进行注释。为了收集这些数据,我们设计了一个易于使用且可扩展的 RGB-D 捕获系统,其中包括自动表面重建和众包语义注释。我们表明,使用这些数据有助于在几个 3D 场景理解任务上实现最先进的性能,包括 3D 对象分类、语义体素标记和 CAD 模型检索。
OpenDataLab 收录
NIH Chest X-rays
Over 112,000 Chest X-ray images from more than 30,000 unique patients
kaggle 收录