农业多模态视觉数据集
收藏github2025-10-02 更新2025-10-03 收录
下载链接:
https://github.com/atoz03/dataset_web
下载链接
链接失效反馈官方服务:
资源简介:
本项目旨在构建一个高质量、大规模、多模态的农业视觉知识库,包含农作物图像、农业害虫图像和植物病害图像。每张图片都配有中英双语的描述和问答对,支持多模态训练。数据集采用统一的分类目录结构和文件命名规范,确保数据质量和一致性。
This project aims to build a high-quality, large-scale multimodal agricultural visual knowledge base, which encompasses crop images, agricultural pest images and plant disease images. Each image is paired with bilingual Chinese and English descriptions and question-answer pairs to support multimodal training. The dataset adopts a unified classification directory structure and file naming convention to ensure data quality and consistency.
创建时间:
2025-09-26
原始信息汇总
农业多模态视觉数据集项目概述
项目简介
本项目旨在构建一个高质量、大规模、多模态的农业视觉知识库,将每一张图片转化为包含丰富上下文信息的"图像-文本对 + 标签"样本,以支持更高级的视觉语言模型训练。
核心理念
- 统一的多模态标注:每张图片都配有中英双语的描述(Caption)和问答对(VQA)
- 统一的本体:所有"作物"、"病害"等标签都经过规范化
- 数据质量优先:通过严格的去重、模糊检测和尺寸过滤剔除低质量样本
- 完全可追溯:通过文件名中的来源标签追溯原始出处
数据集架构
目录结构
datasets/ ├── crops/ # 农作物图像 ├── pests/ # 农业害虫图像 └── diseases/ # 植物病害图像
文件命名规范
<类别名>__<来源标签>__<uuid>.<ext>
<类别名>:标准化的英文类别名<来源标签>:数据来源标识<uuid>:唯一的ID
标准化工作流
第1步:合并新数据源
使用scripts/merge_*.py脚本将新数据源合并到datasets/目录
第2步:标准化文件名
对新合入的数据进行统一重命名
第3步:数据清洗
移除低质量和重复的图像
第3.4步:人工核验(网页)
通过网页进行快速的人工抽查与核验
第3.5步:LLM语义验证与描述增强(可选)
利用多模态大模型对图像进行语义一致性校验与描述增强
第4步:生成数据索引(JSONL)
为清洗干净的数据集生成包含多模态标注的JSONL索引文件
数据索引格式
所有图像的元数据和文本标注存储在JSONL文件中,核心字段包括:
image:图像的相对路径task:任务类型(caption或vqa)text:任务文本(图像描述或问题)answer:vqa任务的答案split:数据集划分(train,val,test)labels:包含类别、作物、病害、来源等详细信息的对象
许可证
本项目采用MIT许可证
搜集汇总
数据集介绍

构建方式
在农业视觉智能研究领域,该数据集通过系统化流程构建多模态知识库。采用统一本体规范对作物、病害等类别进行标准化标注,确保跨数据源语义一致性。通过脚本工具整合多个公开数据源,执行严格的图像去重、模糊检测和尺寸过滤,并引入人工核验与多模态大模型语义验证,形成包含图像-文本对与结构化标签的高质量样本。
特点
该数据集以多模态融合为核心特征,每张图像均配备中英双语描述和视觉问答对,支持跨语言视觉语言模型训练。采用可追溯的文件命名体系,通过来源标签实现数据溯源。样本涵盖农作物、病虫害三大农业视觉子领域,其JSONL索引文件集成图像路径、任务类型、文本标注及多维标签,为农业智能决策提供丰富的上下文信息。
使用方法
研究人员可通过标准化工作流快速部署数据集,依赖环境配置后使用构建脚本生成训练验证测试划分。JSONL索引文件支持直接加载至深度学习框架,其中文本-图像对适用于描述生成、视觉问答等多模态任务。通过调整脚本参数可灵活控制数据划分比例与增强策略,满足不同农业视觉场景的模型训练需求。
背景与挑战
背景概述
农业多模态视觉数据集作为农业人工智能领域的重要基础设施,由跨学科研究团队于2023年启动构建。该项目旨在突破传统图像分类数据集的局限,通过构建融合视觉与语言信息的标准化知识库,为智慧农业中的作物识别、病虫害诊断等核心问题提供多模态解决方案。数据集采用统一本体规范整合多源农业数据,其创新的图像-文本对标注体系为视觉语言模型在农业领域的应用奠定了坚实基础,显著提升了农业视觉任务的智能化水平。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需解决农业场景中光照变化、作物生长阶段差异及病虫害形态多样性导致的视觉识别难题;在构建过程中,既要保证多源数据标注的一致性,又要克服图像去重、模糊检测等质量管控瓶颈,同时还需通过大模型语义验证实现描述文本与视觉内容的精准对齐。这些挑战共同推动了农业多模态数据处理范式的革新。
常用场景
经典使用场景
在智慧农业研究领域,该数据集通过统一的多模态标注体系,为视觉语言模型训练提供了标准化范本。其核心价值在于将农作物图像与双语描述、问答对有机结合,支持图像描述生成、视觉问答等跨模态任务,显著提升了农业场景下的模型语义理解能力。
解决学术问题
该数据集有效解决了农业视觉领域长期存在的标注不一致、数据质量参差等瓶颈问题。通过规范化本体设计和严格的质量控制流程,为作物病害识别、害虫分类等研究提供了可靠基准,推动了农业视觉知识表示的标准化进程,对精准农业技术发展具有重要支撑作用。
衍生相关工作
基于该数据集的多模态特性,已衍生出多项农业视觉领域的创新研究。典型工作包括结合本体知识的细粒度分类模型、面向多语言场景的视觉问答系统,以及融合时序信息的作物生长分析框架,这些成果持续拓展着农业人工智能的技术边界。
以上内容由遇见数据集搜集并总结生成



