Tomato-Village|农业检测数据集|图像识别数据集

github2024-05-14 更新2024-05-31 收录

农业检测

图像识别

下载链接：

https://github.com/mamta-joshi-gehlot/Tomato-Village

下载链接

链接失效反馈

资源简介：

Tomato-Village是一个用于在真实环境中进行端到端番茄疾病检测的数据集。该数据集旨在解决现有数据集在实验室/受控环境中创建，无法有效应用于真实世界图像的问题。Tomato-Village包含三种变体：a) 多类别番茄疾病分类，b) 多标签番茄疾病分类，c) 基于目标检测的番茄疾病检测。据我们所知，这是首个公开可用的此类数据集。

Tomato-Village is a dataset designed for end-to-end tomato disease detection in real-world environments. This dataset aims to address the limitations of existing datasets, which are typically created in laboratory/controlled settings and thus fail to be effectively applied to real-world images. Tomato-Village comprises three variants: a) multi-class tomato disease classification, b) multi-label tomato disease classification, and c) object detection-based tomato disease detection. To the best of our knowledge, this is the first publicly available dataset of its kind.

创建时间：

2023-08-07

原始信息汇总

数据集概述：Tomato-Village

数据集目的

用于在真实环境中进行番茄疾病的全流程检测。
旨在解决现有数据集在实验室/控制环境下创建，不适用于真实世界图像的问题。

数据集特点

包含三种变体：
- a) 多类别番茄疾病分类
- b) 多标签番茄疾病分类
- c) 基于目标检测的番茄疾病检测
是首个公开的此类数据集。

数据集内容

主要涵盖的疾病类型包括：
- 叶矿虫
- 斑萎病毒
- 营养缺乏疾病

数据集应用

已应用多种CNN架构/模型进行分析，并得出基准结果。

引用信息

作者：Gehlot, M., Saxena, R.K., & Gandhi, G.C.
文章标题：“Tomato-Village”: a dataset for end-to-end tomato disease detection in a real-world environment
出版物：Multimedia Systems (2023)
DOI：10.1007/s00530-023-01158-y

AI搜集汇总

数据集介绍

构建方式

在农业领域，番茄病害的准确检测对于提高产量和质量至关重要。为了弥补现有数据集在真实环境中表现不佳的不足，研究团队创建了‘Tomato-Village’数据集。该数据集通过在印度拉贾斯坦邦的焦特布尔和斋浦尔地区实地采集番茄病害图像，涵盖了多种真实环境下的病害类型，如叶矿病、斑点枯萎病毒和营养缺乏病。数据集分为三种变体：多类番茄病害分类、多标签番茄病害分类和基于目标检测的番茄病害检测，以满足不同深度学习模型的需求。

使用方法

‘Tomato-Village’数据集适用于多种深度学习模型的训练和评估，特别是卷积神经网络（CNN）在番茄病害检测中的应用。研究者可以根据需求选择多类分类、多标签分类或目标检测变体进行模型训练。数据集的多样性和真实性使其成为开发和验证番茄病害检测算法的有力工具，尤其适用于需要在真实农业环境中部署的智能农业系统。

背景与挑战

背景概述

番茄作为全球广泛种植的蔬菜之一，其病害对产量和品质的影响不容忽视。准确且早期地检测番茄病害对于减少损失和优化作物管理至关重要。尽管深度学习和卷积神经网络（CNN）的研究已推动了自动化植物病害识别的发展，但现有数据集如PlantVillage主要在实验室环境中创建，难以适应真实世界的复杂场景。为填补这一空白，Gehlot、Saxena和Gandhi等研究人员于2023年提出了‘Tomato-Village’数据集，旨在解决真实环境中番茄病害检测的问题。该数据集不仅涵盖了多类和多标签的番茄病害分类，还引入了基于目标检测的病害识别，成为首个公开的真实世界番茄病害数据集，为相关领域的研究提供了新的资源。

当前挑战

‘Tomato-Village’数据集的构建面临多重挑战。首先，真实世界环境中的病害图像采集难度较大，图像质量参差不齐，且病害种类繁多，包括叶螨、斑点枯萎病毒和营养缺乏等，这些在现有公开数据集中鲜有涵盖。其次，数据集的多样性和代表性要求极高，以确保模型在不同地理和气候条件下的泛化能力。此外，如何有效标注和分类这些复杂多样的病害图像，以及如何确保数据集的公开性和可用性，都是构建过程中亟待解决的问题。这些挑战不仅影响了数据集的质量，也对基于该数据集的模型性能提出了更高的要求。

常用场景

经典使用场景

在农业科技领域，Tomato-Village数据集因其对番茄疾病检测的全面覆盖而备受瞩目。该数据集特别适用于开发和验证端到端的番茄疾病检测模型，尤其是在真实世界环境中。通过提供多类和多标签的番茄疾病分类以及基于对象检测的疾病检测，该数据集为研究人员提供了一个强大的工具，用于训练和测试深度学习模型，从而实现对番茄疾病的自动化识别。

解决学术问题

Tomato-Village数据集解决了传统实验室环境下数据集在真实世界应用中的局限性问题。传统数据集如PlantVillage虽然在实验室环境中表现良好，但在实际农业场景中效果不佳。Tomato-Village通过引入真实环境中的图像，填补了这一空白，使得研究人员能够开发出更适应实际应用的疾病检测模型，从而提高农业生产的效率和质量。

实际应用

在实际农业应用中，Tomato-Village数据集被广泛用于开发智能农业系统，这些系统能够实时监测和识别番茄植株的疾病。通过部署这些系统，农民可以及时采取措施，减少疾病对作物产量的影响，提高农业生产的经济效益。此外，该数据集还支持开发移动应用程序，使农民能够通过智能手机轻松获取疾病诊断信息，进一步推动农业科技的普及和应用。

数据集最近研究

最新研究方向

在农业科技领域，番茄病害的精准检测一直是提升作物产量与质量的关键挑战。近年来，深度学习与卷积神经网络（CNN）技术的快速发展为自动化植物病害识别提供了新的可能性。然而，现有的PlantVillage数据集由于其实验室环境下的局限性，难以在真实世界场景中取得理想效果。为此，‘Tomato-Village’数据集应运而生，旨在填补这一空白，提供多类别、多标签以及基于目标检测的番茄病害分类，特别关注印度拉贾斯坦邦的实际病害情况。该数据集的公开不仅推动了农业智能化的前沿研究，也为全球农业科技的进步提供了宝贵的资源，预示着未来在精准农业与智能农业管理领域的广泛应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

koen430/relevant_selected_stock_news

该数据集包含通过GPT-3.5-turbo筛选出的新闻文章，旨在用于微调大型语言模型，以预测新闻发布后的股票价格变动。数据集包括多个特征，如股票代码、提示、文本、URL、结果、相关性、令牌计数等，并分为训练集、验证集和测试集。

hugging_face 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录