CYTB_genotype_alignment
收藏Tara Oceans
Tara Oceans数据集包含了全球海洋微生物的宏基因组和宏转录组数据,涵盖了从极地到热带的多个海洋生态系统。数据包括微生物的DNA和RNA序列,以及相关的环境元数据。
www.ebi.ac.uk 收录
O*NET
O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。
www.onetonline.org 收录
MNIST数据集
数据规模 训练集:60,000 张手写数字图像(28×28 像素灰度图)及对应标签 34。 测试集:10,000 张图像与标签,用于模型评估 68。 数据来源 由美国国家标准与技术研究院(NIST)收集,50% 样本来自高中生手写,50% 来自人口普查局工作人员 48。 经 Yann LeCun 团队标准化处理,成为机器学习基准数据集 1011。
阿里云天池 收录
中国沙漠边界数据集(2000-2020年)
本数据集基于Landsat遥感影像,通过辐射定标和大气校正等预处理算法得到沙漠区域影像,通过人工目视解译及波段指数的方法提提取沙漠边界区域。数据集涉及的沙漠主要包括中国八大沙漠。分别为腾格里沙漠,塔克拉马干沙漠,巴丹吉林沙漠,库布奇沙漠,乌兰布和沙漠,库木塔格沙漠,古尔班通古特沙漠,...
国家冰川冻土沙漠科学数据中心 收录
OpenML-CC18
我们提倡使用经过整理的、全面的机器学习数据集基准测试套件,以标准化的基于 OpenML 的接口和用 Python、Java 和 R 编写的互补软件工具包为后盾。我们展示了如何使用标准化的基于 OpenML 的基准测试套件轻松执行全面的基准测试研究以及用 Python、Java 和 R 编写的互补软件工具包。 OpenML 基准测试套件的主要显着特点是 (i) 通过标准化数据格式、API 和现有客户端库易于使用; (ii) 关于套件内容的机器可读元信息; (iii) 在线共享结果,实现大规模比较。作为第一个这样的套件,我们提出了 OpenML-CC18,这是一个机器学习基准套件,包含 72 个分类数据集,从 OpenML 上的数千个数据集中精心策划。纳入标准是: * 密集数据集独立观察的分类任务 * 类数 >= 2,每个类至少有 20 个观察和少数类与多数类的比例必须超过 5% * 500 <= 观察数 <= 100000 * one-hot-encoding 后的特征数量 < 5000 * 没有人工数据集 * 没有更大数据集的子集,也没有其他数据集的二值化 * 没有可以通过使用单个特征或使用简单的决策树来完全预测的数据集* 来源或参考可用 如果您使用此基准测试套件,请引用:Bernd Bischl、Giuseppe Casalicchio、Matthias Feurer、Frank Hutter、Michel Lang、Rafael G. Mantovani、Jan N. van Rijn 和 Joaquin Vanschoren。 “OpenML 基准测试套件”arXiv:1708.03731v2 [stats.ML] (2019)。 @article{oml-benchmarking-suites, title={OpenML Benchmarking Suites}, author={Bernd Bischl and Giuseppe Casalicchio and Matthias Feurer and Frank Hutter and Michel Lang and Rafael G. Mantovani and Jan N. van Rijn and Joaquin Vanschoren},年={2019},日记={arXiv:1708.03731v2 [stat.ML]} }
OpenDataLab 收录
