Streptomyces sp.|微生物学数据集|生物技术数据集
收藏UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
多个球状星团的光谱和测光数据集
该数据集是多个球状星团的光谱和测光综合数据集,由意大利国家天体物理学院-帕多瓦天体物理观测站等研究机构的研究人员整理。数据集包含了38个球状星团的恒星在14种化学元素上的丰度信息,包括锂、碳、氮、氧、钠、镁、铝、硅、钾、钙、钛、铁、镍和钡。这些数据来源于多个光谱测量项目,如Apache Point Observatory Galactic Evolution Experiment (APOGEE)、Gaia-ESO Survey (GES)和Galactic Archaeology with HERMES (GALAH)。数据集的目的是研究球状星团中不同恒星星族的化学组成,以揭示其形成和演化的机制。
arXiv 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录