Premiere Urgence Annual Report 2004|人道主义援助数据集|年度报告数据集
收藏UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
MineNetCD
MineNetCD数据集由慕尼黑工业大学等机构创建,是一个全球矿区变化检测的综合基准数据集。该数据集包含超过70k对的双时相高分辨率遥感图像,覆盖全球100个矿区,总面积约6756.88平方公里。数据集的创建过程结合了半自动标注和专家手动标注,确保了数据的精细度和准确性。MineNetCD数据集主要应用于矿区环境监测和可持续发展研究,旨在通过高精度的变化检测技术,帮助实现矿区的可持续管理和环境保护。
arXiv 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
HAM10000
HAM10000数据集是一个全面收集的皮肤镜图像集合,用于皮肤病变分类,广泛应用于医学影像和机器学习领域。该数据集包含多种皮肤病变,旨在推动皮肤病学研究,特别是皮肤癌的诊断。数据集由10,000张高分辨率的皮肤病变图像组成,来源多样,有助于训练稳健的机器学习模型,使其能够很好地泛化到未见过的数据。数据集的主要挑战是其显著的不平衡性。
github 收录