Variants
收藏中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
MNIST数据集
数据规模 训练集:60,000 张手写数字图像(28×28 像素灰度图)及对应标签 34。 测试集:10,000 张图像与标签,用于模型评估 68。 数据来源 由美国国家标准与技术研究院(NIST)收集,50% 样本来自高中生手写,50% 来自人口普查局工作人员 48。 经 Yann LeCun 团队标准化处理,成为机器学习基准数据集 1011。
阿里云天池 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。时间为北京时间。
国家海洋科学数据中心 收录
OpenML-CC18
我们提倡使用经过整理的、全面的机器学习数据集基准测试套件,以标准化的基于 OpenML 的接口和用 Python、Java 和 R 编写的互补软件工具包为后盾。我们展示了如何使用标准化的基于 OpenML 的基准测试套件轻松执行全面的基准测试研究以及用 Python、Java 和 R 编写的互补软件工具包。 OpenML 基准测试套件的主要显着特点是 (i) 通过标准化数据格式、API 和现有客户端库易于使用; (ii) 关于套件内容的机器可读元信息; (iii) 在线共享结果,实现大规模比较。作为第一个这样的套件,我们提出了 OpenML-CC18,这是一个机器学习基准套件,包含 72 个分类数据集,从 OpenML 上的数千个数据集中精心策划。纳入标准是: * 密集数据集独立观察的分类任务 * 类数 >= 2,每个类至少有 20 个观察和少数类与多数类的比例必须超过 5% * 500 <= 观察数 <= 100000 * one-hot-encoding 后的特征数量 < 5000 * 没有人工数据集 * 没有更大数据集的子集,也没有其他数据集的二值化 * 没有可以通过使用单个特征或使用简单的决策树来完全预测的数据集* 来源或参考可用 如果您使用此基准测试套件,请引用:Bernd Bischl、Giuseppe Casalicchio、Matthias Feurer、Frank Hutter、Michel Lang、Rafael G. Mantovani、Jan N. van Rijn 和 Joaquin Vanschoren。 “OpenML 基准测试套件”arXiv:1708.03731v2 [stats.ML] (2019)。 @article{oml-benchmarking-suites, title={OpenML Benchmarking Suites}, author={Bernd Bischl and Giuseppe Casalicchio and Matthias Feurer and Frank Hutter and Michel Lang and Rafael G. Mantovani and Jan N. van Rijn and Joaquin Vanschoren},年={2019},日记={arXiv:1708.03731v2 [stat.ML]} }
OpenDataLab 收录
MVIP
MVIP是一个面向应用的多视角和多模态工业零件识别数据集,由弗劳恩霍夫IPK研究所创建。该数据集包含了校准过的RGBD多视角图像以及对象的物理属性、自然语言描述和超类别等信息。数据集共包含约570,000张图像,分为训练集、验证集和测试集,适用于工业零件识别相关的研究,旨在解决小样本学习、视觉相似零件识别等问题。
arXiv 收录
