five

Indoor Plant Health & Growth Dataset

收藏
github2025-06-16 更新2025-06-17 收录
下载链接:
https://github.com/souvikrana17/Indoor-Plant-Health-Growth-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
室内植物健康与生长数据集包含1000行和17列,包括植物ID、生长指标(如高度、叶片数、新生长数)、健康描述、浇水特征、光照暴露、环境读数(如室温、湿度)、施肥数据、害虫影响、土壤条件等。目标标签是健康评分(1至5分)。

Indoor Plant Health and Growth Dataset contains 1000 rows and 17 columns, including plant ID, growth metrics (e.g., height, number of leaves, number of new growth), health descriptions, watering characteristics, light exposure, environmental readings (e.g., room temperature, humidity), fertilization data, pest impact, soil conditions, and other related attributes. The target label is the health score ranging from 1 to 5.
创建时间:
2025-06-08
原始信息汇总

室内植物健康与生长数据集概述

📌 数据集简介

  • 目的:预测植物健康评分并基于护理需求进行聚类分析
  • 应用场景:家庭园艺和智能园艺系统
  • 核心任务
    • 预测植物健康评分(1=濒死至5=茁壮成长)
    • 识别影响植物健康的关键因素
    • 基于护理需求对植物进行聚类分组

📂 数据集结构

  • 规模:1,000行 × 17列
  • 主要字段
    • 标识字段Plant_ID(唯一植物标识)
    • 生长指标
      • Height_cm(高度)
      • Leaf_Count(叶片数)
      • New_Growth_Count(新生长数量)
    • 健康描述Health_Notes(定性健康描述)
    • 护理特征
      • Watering_Amount_ml(浇水量)
      • Watering_Frequency_days(浇水频率)
      • Sunlight_Exposure(光照描述)
    • 环境参数
      • Room_Temperature_C(室温)
      • Humidity_%(湿度)
    • 施肥数据
      • Fertilizer_Type(肥料类型)
      • Fertilizer_Amount_ml(施肥量)
    • 虫害信息
      • Pest_Presence(虫害存在)
      • Pest_Severity(虫害严重程度)
    • 土壤条件
      • Soil_Moisture_%(土壤湿度)
      • Soil_Type(土壤类型)
    • 目标标签Health_Score(1-5分健康评分)

🔍 关键发现

  • 重要特征

    1. 室温(Room_Temperature_C
    2. 植物高度(Height_cm
    3. 土壤湿度(Soil_Moisture_%
    4. 日均浇水量(Watering_Per_Day_ml
    5. 施肥量(Fertilizer_Amount_ml
    6. 湿度(Humidity_%
    7. 叶片数(Leaf_Count)和新生长数(New_Growth_Count
  • 聚类分组(K=3)

    1. 凉爽干燥低维护型:如虎尾兰、芦荟
    2. 温暖潮湿热带型:如龟背竹、喜林芋
    3. 温暖适应少水型:如吊兰、蕨类植物

📊 分析方法

  • 监督学习
    • 模型:随机森林分类器
    • 准确率:约25%
  • 无监督学习
    • 方法:K-Means聚类
    • 技术:肘部法、聚类画像

⚙️ 技术栈

  • 编程语言:Python
  • 主要库
    • 数据处理:pandasnumpy
    • 可视化:matplotlibseaborn
    • 机器学习:scikit-learn
    • 文本处理:re(用于解析Health_Notes

📈 评估指标

  • 准确率
  • 混淆矩阵
  • 特征重要性排序
搜集汇总
数据集介绍
main_image_url
构建方式
在室内植物健康与生长研究领域,数据集的构建采用了多维度观测方法。研究团队采集了1000株室内植物的17项关键指标,涵盖生长参数(株高、叶片数)、养护数据(浇水量、施肥量)、环境因素(室温、湿度)以及土壤状况等结构化数据。通过标准化测量工具和定期观测记录,确保数据的一致性与可靠性。特别值得注意的是,该数据集创新性地将定量指标(如土壤湿度百分比)与定性描述(健康评语)相结合,并采用专家评分机制对植物健康状态进行1-5级量化标注,为后续分析提供了丰富的特征维度。
特点
该数据集最显著的特点是实现了植物生长全要素的数字化映射。17个特征变量系统性地覆盖了影响室内植物健康的三大类因素:植物本体状态(高度、新芽数量)、人为干预措施(浇水频率、肥料类型)以及环境条件(光照描述、温湿度)。数据集中包含的文本型字段(如健康评语、光照描述)经过特殊处理转化为可分析特征,与数值型数据形成互补。其目标变量健康评分采用五级量表,既保留分类特性又具备序数特征,为监督学习和无监督学习任务提供了灵活的应用空间。不同植物品种在特征分布上呈现明显差异,这为研究物种特异性养护模式创造了条件。
使用方法
该数据集支持多种机器学习任务的标准流程。用户可通过提供的Jupyter Notebook快速加载数据,其中已包含完整的预处理管道,处理缺失值、文本解析和特征编码等步骤。对于预测任务,建议优先探索随机森林等树模型以分析特征重要性;聚类分析推荐采用K-means算法,数据集中已验证存在3个显著不同的养护模式簇。使用前需注意对连续变量进行标准化处理,分类变量采用独热编码。数据集特别适合用于特征工程实践,例如可从浇水频率和单次水量衍生出'日均供水量'等复合特征。评估模型时除准确率外,应重点关注对中间健康状态(2-4分)的区分能力。
背景与挑战
背景概述
Indoor Plant Health & Growth Dataset由研究者Souvik Rana创建,旨在探索室内植物健康与环境因素及日常护理之间的关系。该数据集收录了1000株室内植物的17项生长指标,包括高度、叶片数量、浇水频率、光照条件等,为家庭园艺和智能园艺系统提供了重要的数据支持。通过结合监督学习和无监督学习方法,该数据集不仅能够预测植物的健康评分(1-5分),还能识别影响植物健康的关键因素,并将植物按照护理需求进行聚类。该数据集为植物健康管理领域的研究提供了新的视角和方法,推动了智能园艺技术的发展。
当前挑战
该数据集在解决室内植物健康预测问题时面临多重挑战。首先,植物健康评分的主观性可能导致数据标注不一致,影响模型的准确性。其次,环境因素(如温度、湿度)与护理行为(如浇水、施肥)之间的复杂交互关系增加了特征工程的难度。在数据构建过程中,如何从非结构化的健康描述文本(Health_Notes)中提取有效特征,以及如何处理缺失值和异常值,均是技术上的关键挑战。此外,不同植物种类对环境的适应性差异较大,使得聚类分析的结果可能受到物种多样性的干扰。
常用场景
经典使用场景
在室内植物健康管理领域,该数据集被广泛应用于机器学习模型的训练与验证。研究者通过分析植物生长指标与环境参数的关联性,构建预测模型以评估植物健康状态。典型的应用场景包括利用随机森林分类器预测健康评分,或通过K均值聚类识别具有相似养护需求的植物群组。这类分析为自动化植物养护系统提供了数据支持。
实际应用
智能家居系统借助该数据集开发了自适应植物养护方案,通过实时监测环境参数动态调整浇水频率与光照时长。商业种植基地则利用聚类结果优化植物分组管理策略,降低养护成本。部分植物健康监测APP集成该数据集的预测模型,为用户提供个性化的养护建议,显著提升了室内植物的存活率。
衍生相关工作
基于该数据集衍生的研究包括多模态植物健康评估系统,结合图像数据增强预测准确率。另有学者扩展了时间序列分析模块,追踪长期环境变化对植物生长的影响。在算法层面,后续工作尝试用高斯混合模型改进聚类效果,或通过迁移学习将模型应用于室外作物监测,推动了精准农业的技术迭代。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作