PlantFlowerDatasets|植物学数据集|植物养护数据集

github2023-07-06 更新2024-05-31 收录

植物学

植物养护

下载链接：

https://github.com/lovebull/PlantFlowerDatasets

下载链接

链接失效反馈

资源简介：

植物花卉数据集，涵盖了养护，种植，生长，形态，花语，养护知识，养护问答等丰富的语料数据，以及中国植物志数据集，记载了301科3408属31142种植物的科学名称、形态特征、生态环境、地理分布、经济用途和物候期等。

The plant and flower dataset encompasses a rich corpus of data including care, cultivation, growth, morphology, floriography, care knowledge, and care Q&A. Additionally, it includes the Flora of China dataset, which documents the scientific names, morphological characteristics, ecological environments, geographical distributions, economic uses, and phenological periods of 31,142 plant species across 3,408 genera in 301 families.

创建时间：

2023-06-21

原始信息汇总

数据集概述

植物花卉数据集

数据格式：jsonl
数据量：5100条
内容：涵盖养护、种植、生长、形态、花语、养护知识、养护问答等语料数据
更新计划：后续时间会陆续增加数据集

中国植物志数据集

数据量：30993条
文件大小：62MB
数据格式：binidx
用途：方便RWKV的炼丹师使用

植物花卉+中国植物志合订本数据集

数据量：36033条
文件大小：70MB
数据格式：bin, idx

数据集特点

数据集更新：数据集将持续更新，增加新的数据条目。
数据格式优化：所有数据均清洗为支持RWKV Word模型的jsonl格式，并转换为binidx文件，便于直接训练。
数据集整合：新增合订本数据集，整合了植物花卉与中国植物志的数据。

AI搜集汇总

数据集介绍

构建方式

PlantFlowerDatasets数据集的构建基于RWKV大模型，主要涵盖了盆栽花卉植物的栽培、养护、生长、形态、花语等多方面的语料数据。数据集以jsonl格式存储，并经过清洗以支持RWKV Word模型。此外，数据集还包括了中国植物志的数据，总计超过36000条记录，涵盖了丰富的植物多样性信息。数据集的构建过程中，特别注重数据的准确性和实用性，确保每条数据都能为植物学研究提供有价值的参考。

特点

PlantFlowerDatasets数据集的特点在于其广泛的数据覆盖和高质量的数据处理。数据集不仅包含了盆栽花卉的详细养护知识，还整合了中国植物志的丰富信息，提供了从植物科学名称到经济用途的全面数据。数据集的格式设计考虑了模型训练的需求，提供了binidx文件，便于直接用于RWKV模型的训练。这种设计使得数据集在植物学研究和机器学习应用中都具有很高的实用价值。

使用方法

PlantFlowerDatasets数据集的使用方法简便高效。用户可以直接使用提供的binidx文件进行模型训练，无需额外的数据预处理。对于希望进行特定领域研究的用户，数据集中的jsonl文件提供了灵活的接口，允许用户根据需求定制数据处理流程。此外，数据集的README文件中提供了详细的指导和示例代码，帮助用户快速上手并有效利用数据集进行科学研究和模型训练。

背景与挑战

背景概述

PlantFlowerDatasets数据集于2023年由研究人员lovebull和Fengchun Xu等人创建，旨在为植物花卉领域的研究提供高质量的语料数据。该数据集基于RWKV大模型，涵盖了盆栽花卉植物的养护、种植、生长、形态、花语等多方面的信息，并结合了中国植物志的数据，形成了包含36033条数据的合订本。该数据集的创建不仅为植物学研究提供了丰富的基础数据，还为自然语言处理领域的模型训练提供了重要的语料支持，推动了植物学与人工智能的交叉研究。

当前挑战

PlantFlowerDatasets在构建过程中面临多方面的挑战。首先，植物花卉领域的语料数据具有高度的专业性和多样性，如何准确清洗和整理这些数据以确保其质量和可用性是一个重要问题。其次，数据集需要支持RWKV模型的训练格式，这对数据的预处理和转换提出了较高的技术要求。此外，随着植物分类学研究的不断进展，如何及时更新和整合最新的分类学成果，以保持数据集的时效性和科学性，也是一个持续的挑战。最后，数据集的扩展和维护需要大量的时间和资源投入，以确保其能够持续满足研究需求。

常用场景

经典使用场景

PlantFlowerDatasets数据集广泛应用于植物学和园艺学领域的研究，特别是在植物分类、生长习性分析及花卉养护知识的自动化处理方面。该数据集通过提供详细的植物生长数据、养护问答及花语信息，为研究人员提供了一个全面的资源库，用于深入探索植物生命周期的各个阶段。

解决学术问题

该数据集解决了植物学研究中数据标准化和可访问性的问题，通过整合《中国植物志》和现代植物养护知识，为科研人员提供了一个统一的平台，用于比较和分析不同植物的生长条件和养护需求。此外，数据集的高质量语料支持了自然语言处理技术在植物学领域的应用，促进了植物养护知识的智能化和自动化。

衍生相关工作

基于PlantFlowerDatasets，研究人员开发了多种植物识别和养护推荐系统。这些系统利用数据集中丰富的植物信息，通过机器学习算法优化植物识别准确率和养护建议的个性化。此外，该数据集还支持了多项关于植物生长模型和环境影响的研究，推动了植物科学和园艺技术的进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

reereererreereererreereererreereererreereererreereererreereererreereererreereererreereererreereererreereerer

阿里云天池收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

World Bank - World Governance Indicators

世界银行的世界治理指标（World Governance Indicators, WGI）数据集提供了全球各国在六个治理维度上的评估数据，包括言论和问责、政治稳定和无暴力、政府效率、监管质量、法治以及腐败控制。这些指标基于多个来源的数据，旨在帮助政策制定者和研究人员了解和改善治理质量。

databank.worldbank.org 收录