农业多模态视觉数据集

github2025-10-02 更新2025-10-03 收录

下载链接：

https://github.com/atoz03/dataset_web

下载链接

链接失效反馈

官方服务：

资源简介：

本项目旨在构建一个高质量、大规模、多模态的农业视觉知识库，包含农作物图像、农业害虫图像和植物病害图像。每张图片都配有中英双语的描述和问答对，支持多模态训练。数据集采用统一的分类目录结构和文件命名规范，确保数据质量和一致性。

This project aims to build a high-quality, large-scale multimodal agricultural visual knowledge base, which encompasses crop images, agricultural pest images and plant disease images. Each image is paired with bilingual Chinese and English descriptions and question-answer pairs to support multimodal training. The dataset adopts a unified classification directory structure and file naming convention to ensure data quality and consistency.

创建时间：

2025-09-26

原始信息汇总

农业多模态视觉数据集项目概述

项目简介

本项目旨在构建一个高质量、大规模、多模态的农业视觉知识库，将每一张图片转化为包含丰富上下文信息的"图像-文本对 + 标签"样本，以支持更高级的视觉语言模型训练。

核心理念

统一的多模态标注：每张图片都配有中英双语的描述（Caption）和问答对（VQA）
统一的本体：所有"作物"、"病害"等标签都经过规范化
数据质量优先：通过严格的去重、模糊检测和尺寸过滤剔除低质量样本
完全可追溯：通过文件名中的来源标签追溯原始出处

数据集架构

目录结构

datasets/ ├── crops/ # 农作物图像 ├── pests/ # 农业害虫图像 └── diseases/ # 植物病害图像

文件命名规范

<类别名>__<来源标签>__<uuid>.<ext>

<类别名>：标准化的英文类别名
<来源标签>：数据来源标识
<uuid>：唯一的ID

标准化工作流

第1步：合并新数据源

使用scripts/merge_*.py脚本将新数据源合并到datasets/目录

第2步：标准化文件名

对新合入的数据进行统一重命名

第3步：数据清洗

移除低质量和重复的图像

第3.4步：人工核验（网页）

通过网页进行快速的人工抽查与核验

第3.5步：LLM语义验证与描述增强（可选）

利用多模态大模型对图像进行语义一致性校验与描述增强

第4步：生成数据索引（JSONL）

为清洗干净的数据集生成包含多模态标注的JSONL索引文件

数据索引格式

所有图像的元数据和文本标注存储在JSONL文件中，核心字段包括：

image：图像的相对路径
task：任务类型（caption或vqa）
text：任务文本（图像描述或问题）
answer：vqa任务的答案
split：数据集划分（train, val, test）
labels：包含类别、作物、病害、来源等详细信息的对象

许可证

本项目采用MIT许可证

搜集汇总

数据集介绍

构建方式

在农业视觉智能研究领域，该数据集通过系统化流程构建多模态知识库。采用统一本体规范对作物、病害等类别进行标准化标注，确保跨数据源语义一致性。通过脚本工具整合多个公开数据源，执行严格的图像去重、模糊检测和尺寸过滤，并引入人工核验与多模态大模型语义验证，形成包含图像-文本对与结构化标签的高质量样本。

特点

该数据集以多模态融合为核心特征，每张图像均配备中英双语描述和视觉问答对，支持跨语言视觉语言模型训练。采用可追溯的文件命名体系，通过来源标签实现数据溯源。样本涵盖农作物、病虫害三大农业视觉子领域，其JSONL索引文件集成图像路径、任务类型、文本标注及多维标签，为农业智能决策提供丰富的上下文信息。

使用方法

研究人员可通过标准化工作流快速部署数据集，依赖环境配置后使用构建脚本生成训练验证测试划分。JSONL索引文件支持直接加载至深度学习框架，其中文本-图像对适用于描述生成、视觉问答等多模态任务。通过调整脚本参数可灵活控制数据划分比例与增强策略，满足不同农业视觉场景的模型训练需求。

背景与挑战

背景概述

农业多模态视觉数据集作为农业人工智能领域的重要基础设施，由跨学科研究团队于2023年启动构建。该项目旨在突破传统图像分类数据集的局限，通过构建融合视觉与语言信息的标准化知识库，为智慧农业中的作物识别、病虫害诊断等核心问题提供多模态解决方案。数据集采用统一本体规范整合多源农业数据，其创新的图像-文本对标注体系为视觉语言模型在农业领域的应用奠定了坚实基础，显著提升了农业视觉任务的智能化水平。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决农业场景中光照变化、作物生长阶段差异及病虫害形态多样性导致的视觉识别难题；在构建过程中，既要保证多源数据标注的一致性，又要克服图像去重、模糊检测等质量管控瓶颈，同时还需通过大模型语义验证实现描述文本与视觉内容的精准对齐。这些挑战共同推动了农业多模态数据处理范式的革新。

常用场景

经典使用场景

在智慧农业研究领域，该数据集通过统一的多模态标注体系，为视觉语言模型训练提供了标准化范本。其核心价值在于将农作物图像与双语描述、问答对有机结合，支持图像描述生成、视觉问答等跨模态任务，显著提升了农业场景下的模型语义理解能力。

解决学术问题

该数据集有效解决了农业视觉领域长期存在的标注不一致、数据质量参差等瓶颈问题。通过规范化本体设计和严格的质量控制流程，为作物病害识别、害虫分类等研究提供了可靠基准，推动了农业视觉知识表示的标准化进程，对精准农业技术发展具有重要支撑作用。

衍生相关工作

基于该数据集的多模态特性，已衍生出多项农业视觉领域的创新研究。典型工作包括结合本体知识的细粒度分类模型、面向多语言场景的视觉问答系统，以及融合时序信息的作物生长分析框架，这些成果持续拓展着农业人工智能的技术边界。

以上内容由遇见数据集搜集并总结生成