Iris flower data set|植物分类数据集|多元数据分析数据集
收藏Iris-Dataset 概述
数据集描述
Iris 花数据集,又称 Fishers Iris 数据集,是由英国统计学家和生物学家 Ronald Fisher 于 1936 年提出的多变量数据集。该数据集用于量化三种相关鸢尾花(Iris setosa, Iris virginica 和 Iris versicolor)的形态变异。数据集包含每种花各 50 个样本,每个样本测量了四个特征:萼片和花瓣的长度及宽度,单位为厘米。
数据集用途
该数据集基于 Fisher 的线性判别模型,已成为机器学习中许多统计分类技术(如支持向量机)的典型测试案例。尽管在聚类分析中不常见,但通过非线性主成分分析的非监督过程,三种鸢尾花种类是可以区分的。
数据集特点
- 包含三种鸢尾花种类的 150 个样本。
- 每个样本具有四个特征:萼片和花瓣的长度及宽度。
- 数据集用于展示监督和非监督技术在数据挖掘中的差异。
数据集应用
- 作为机器学习分类算法的测试案例。
- 用于解释和区分监督与非监督数据挖掘技术。
数据集参考文献
- R. A. Fisher (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics.
- Edgar Anderson (1936). "The species problem in Iris". Annals of the Missouri Botanical Garden.
- A. N. Gorban, A. Zinovyev. Principal manifolds and graphs in practice: from molecular biology to dynamical systems, International Journal of Neural Systems.

中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
ChineseFoodNet
这个是一个关于中国传统食物图片的数据集。其中包含了208类食物,数据集图片总量大小约20G,数量约18W。
github 收录
RFUAV
RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。
arXiv 收录