Iris flower data set|机器学习数据集|植物分类数据集
收藏数据集概述
数据集名称
- Iris数据集
数据集来源
- 由英国统计学家、优生学家、生物学家Ronald Fisher在1936年的论文《The use of multiple measurements in taxonomic problems》中提出。
数据集目的
- 作为线性判别分析的示例,用于量化三种相关鸢尾花(Iris setosa, Iris virginica, Iris versicolor)的形态变异。
数据集内容
- 包含150个样本,每种鸢尾花50个样本。
- 每个样本记录了四个特征:萼片长度、萼片宽度、花瓣长度、花瓣宽度,单位为厘米。
- 物种信息用于区分不同的鸢尾花种类。
数据集应用
- 广泛用于机器学习中的统计分类技术测试,如支持向量机。
- 用于解释监督和非监督技术在数据挖掘中的差异。
数据集特点
- 数据集中的两个集群具有明显的分离,其中一个集群包含Iris setosa,另一个集群包含Iris virginica和Iris versicolor。
- 通过非线性主成分分析,三种鸢尾花可以在投影到非线性和分支主成分上进行分离。
数据集使用示例
- 在R语言和Python的Scikit-learn机器学习库中均包含此数据集,方便用户访问和使用。
结论
Iris数据集是一个经典的多变量数据集,主要用于机器学习和统计分析的教学和研究,特别是在分类技术的发展和应用中起到了关键作用。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Kaggle Financial Statement Data
该数据集包含公司财务报表的数据,涵盖了多个公司的财务信息,如资产负债表、利润表和现金流量表等。数据以CSV格式提供,便于分析和处理。
www.kaggle.com 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录