five

Indoor Plant Health & Growth Dataset

收藏
github2025-06-08 更新2025-06-09 收录
下载链接:
https://github.com/Souvik-Rana/Indoor-Plant-Health-Growth-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
室内植物健康与生长数据集包含1000行和17列,记录了植物的生长指标、健康评分、浇水频率、光照暴露、环境参数、施肥数据、害虫影响和土壤条件等。

The Indoor Plant Health and Growth Dataset consists of 1,000 rows and 17 columns, recording plant growth indicators, health scores, watering frequency, light exposure, environmental parameters, fertilization data, pest impacts, soil conditions, and other relevant metrics.
创建时间:
2025-06-08
原始信息汇总

Indoor Plant Health & Growth Dataset 概述

📌 数据集简介

  • 目的:用于预测室内植物健康状态和基于护理模式的聚类分析
  • 应用场景:家庭园艺和智能花园系统
  • 核心任务
    • 预测植物健康评分(1=濒死至5=茁壮)
    • 识别影响植物健康的关键因素
    • 基于护理需求进行植物聚类

📂 数据内容

  • 规模:1,000条记录,17个特征
  • 主要特征
    • 生长指标Height_cm, Leaf_Count, New_Growth_Count
    • 健康描述Health_Notes(定性描述)
    • 护理参数
      • 浇水:Watering_Amount_ml, Watering_Frequency_days
      • 光照:Sunlight_Exposure(文本描述)
    • 环境参数Room_Temperature_C, Humidity_%
    • 施肥数据Fertilizer_Type, Fertilizer_Amount_ml
    • 虫害数据Pest_Presence, Pest_Severity
    • 土壤数据Soil_Moisture_%, Soil_Type
    • 目标变量Health_Score(1-5分)

🔍 分析方法

  • 监督学习:随机森林分类器(准确率~25%)
  • 无监督学习:K-Means聚类(K=3)
  • 特征工程:从Health_Notes解析衍生特征
  • 评估指标:准确率、混淆矩阵、特征重要性排名

🔑 关键发现

  • 最具影响力特征
    1. Room_Temperature_C
    2. Height_cm
    3. Soil_Moisture_%
    4. Watering_Per_Day_ml
    5. Fertilizer_Amount_ml
  • 聚类分组
    1. 凉爽干燥低维护型(如蛇草、芦荟)
    2. 温暖潮湿热带型(如龟背竹、喜林芋)
    3. 温暖适应少水型(如吊兰、蕨类)

🛠️ 技术栈

  • 语言:Python
  • 主要库
    • 数据处理:pandas, numpy
    • 可视化:matplotlib, seaborn
    • 机器学习:scikit-learn
    • 文本处理:re
搜集汇总
数据集介绍
main_image_url
构建方式
在室内植物健康与生长数据集的构建过程中,研究团队精心采集了1000株室内植物的多维度数据,涵盖17个关键特征变量。数据采集采用标准化测量方法,包括植物形态学指标(高度、叶片数)、环境参数(室温、湿度)、养护记录(浇水量、施肥量)以及健康状态评估。通过结构化表格与文本描述相结合的方式,Health_Notes字段的定性描述经过自然语言处理技术转化为可量化的特征,确保数据既保留原始观察细节又具备机器学习适用性。
使用方法
使用者可通过克隆GitHub仓库获取Jupyter Notebook分析模板,该模板已集成完整的机器学习流程。数据预处理阶段需特别注意文本特征的解析与编码,建议采用正则表达式提取Health_Notes中的关键信息。建模时可优先尝试随机森林分类器进行健康评分预测,配合网格搜索优化超参数;聚类分析推荐使用K-means算法,通过肘部法则确定最佳簇数。分析结果可通过seaborn库实现可视化,重点关注特征重要性排序与簇间特征差异。
背景与挑战
背景概述
随着室内园艺的普及和智能家居系统的发展,室内植物健康监测与养护需求日益凸显。由研究人员Souvik Rana创建的Indoor Plant Health & Growth Dataset,旨在通过数据驱动方法解析环境因素与养护措施对植物健康的影响机制。该数据集收录了1000株室内植物的17维特征,涵盖生长指标、水肥管理、环境参数及病虫害等多元数据,其核心研究目标在于建立植物健康评分预测模型与养护需求聚类体系。作为首个公开的综合性室内植物健康数据集,它为智能园艺系统开发提供了关键数据支撑,推动了植物表型组学与精准农业在微观尺度的交叉应用。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,植物健康评分作为主观性较强的复合指标,其与多源异构环境特征的映射关系存在显著非线性特征,传统机器学习方法仅能达到25%的准确率;在构建过程中,文本型字段(如Health_Notes和Sunlight_Exposure)的语义解析、多模态数据(量化指标与定性描述)的融合表征,以及小样本条件下稀有病虫害案例的均衡化处理,均对数据质量控制提出了较高要求。此外,不同植物物种的生理特性差异导致特征重要性排序存在物种依赖性,这对通用型健康预测模型的构建形成实质性障碍。
常用场景
经典使用场景
在室内植物健康管理领域,该数据集为研究人员提供了一个全面的基准工具,用于探索环境参数与植物生长状态之间的复杂关系。通过整合高度、叶片数量、新生长量等形态指标与浇水频率、光照时长、温湿度等环境变量,研究者能够构建多维度生长模型,揭示不同植物品种对环境因子的响应机制。
解决学术问题
该数据集有效解决了室内园艺研究中关键变量难以量化的问题,通过标准化的健康评分体系(1-5级)和详实的生长记录,为植物生理学研究提供了可重复的实验数据。其17个特征维度覆盖了从土壤条件到病虫害影响的完整生态链,显著提升了植物健康预测模型的解释力与泛化能力。
实际应用
智能园艺系统开发者利用该数据集训练个性化养护算法,根据实时传感器数据动态调整浇水与光照方案。家居植物养护APP通过集成数据集训练的推荐模型,可向用户提供基于植物种类和当前环境的最优养护策略,降低新手园艺爱好者的养护失败率。
数据集最近研究
最新研究方向
随着智能家居和精准农业的兴起,室内植物健康监测领域正经历着从传统经验判断向数据驱动决策的转变。Indoor Plant Health & Growth Dataset通过整合17维环境参数与生长指标,为机器学习模型提供了量化评估植物健康状态的基准平台。当前研究聚焦于多模态特征融合策略,将结构化数据(温湿度、施肥量)与非结构化健康笔记相结合,利用自然语言处理技术挖掘潜在健康关联模式。在应用层面,该数据集正推动两个创新方向:一是基于时间序列分析的动态健康预测模型,通过捕捉环境变量与生长指标的滞后效应,实现预防性养护提醒;二是结合联邦学习的分布式健康评估系统,在保护用户隐私的前提下聚合跨地域养护经验。这些探索为家庭园艺智能化提供了可扩展的技术框架,同时也为植物工厂的环境调控策略优化提供了参考依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作