five

WisWheat

收藏
arXiv2025-06-06 更新2025-06-10 收录
下载链接:
https://arxiv.org/abs/2506.06084v1
下载链接
链接失效反馈
官方服务:
资源简介:
WisWheat是一个针对小麦管理的三层视觉-语言数据集,旨在提高视觉语言模型(VLMs)在小麦管理任务中的量化推理能力。数据集分为三个层次:1) 基础预训练数据集,包含47,871个图像-描述对,用于粗略适应VLMs到小麦形态;2) 定量数据集,包含7,263个视觉问答风格的图像-问题-答案三元组,用于定量性状测量任务;3) 指令微调数据集,包含4,888个样本,针对不同物候阶段的生物和非生物胁迫诊断和管理计划。WisWheat数据集通过多模态设计,为VLMs提供了从小麦形态识别到定量性状分析,再到实际管理决策的全面训练数据,有助于生成更可靠和可操作的管理建议,提升小麦产量和抗逆性。

WisWheat is a three-tier visual-language dataset tailored for wheat management, designed to improve the quantitative reasoning capabilities of visual-language models (VLMs) in wheat management-related tasks. The dataset is divided into three tiers: 1) The basic pre-training dataset, which contains 47,871 image-caption pairs for preliminarily adapting VLMs to wheat morphology; 2) The quantitative dataset, which includes 7,263 visual question answering-style image-question-answer triplets for quantitative trait measurement tasks; 3) The instruction fine-tuning dataset, which encompasses 4,888 samples focusing on biotic and abiotic stress diagnosis and management plans for different wheat phenological stages. Through its multimodal design, the WisWheat dataset provides VLMs with comprehensive training data spanning from wheat morphology recognition, quantitative trait analysis to practical management decision-making, helping generate more reliable and actionable management recommendations and ultimately enhancing wheat yield and stress resistance.
提供机构:
昆士兰大学
创建时间:
2025-06-06
原始信息汇总

WisWheat: A Three-Tiered Vision-Language Dataset for Wheat Management

数据集基本信息

  • 标题: WisWheat: A Three-Tiered Vision-Language Dataset for Wheat Management
  • 作者: Bowen Yuan, Selena Song, Javier Fernandez, Yadan Luo, Mahsa Baktashmotlagh, Zijian Wang
  • 提交日期: 2025年6月6日
  • 领域: 计算机视觉与模式识别 (Computer Vision and Pattern Recognition)
  • arXiv标识符: arXiv:2506.06084v1
  • DOI: https://doi.org/10.48550/arXiv.2506.06084

数据集描述

WisWheat是一个专为小麦管理任务设计的三层视觉-语言数据集,旨在提升视觉-语言模型在小麦管理任务中的性能。

数据集结构

  1. 基础预训练数据集:

    • 包含47,871个图像-标题对。
    • 用于粗粒度适应小麦形态的视觉-语言模型。
  2. 定量数据集:

    • 包含7,263个VQA风格(视觉问答)的图像-问题-答案三元组。
    • 专注于定量性状测量任务。
  3. 指令微调数据集:

    • 包含4,888个样本。
    • 针对不同物候阶段的生物和非生物胁迫诊断及管理计划。

实验与结果

  • 实验模型: 开源视觉-语言模型(如Qwen2.5 7B)。
  • 性能提升:
    • 在小麦胁迫对话任务中准确率达到79.2%。
    • 在小麦生长阶段对话任务中准确率达到84.6%。
    • 性能超越通用商业模型(如GPT-4o),分别高出11.9%和34.6%。

相关链接

  • PDF链接: https://arxiv.org/pdf/2506.06084v1
  • HTML链接: https://arxiv.org/html/2506.06084v1
  • TeX源码: https://arxiv.org/format/2506.06084v1
搜集汇总
数据集介绍
main_image_url
构建方式
WisWheat数据集的构建采用了三层递进式设计,通过专家参与的迭代生成流程确保数据质量。研究团队首先从公开数据源筛选了47,871张小麦田间图像,经过分辨率筛选后,采用‘专家参与循环’机制生成图文对:由领域专家评估问题相关性,结合原始数据标签和权威文献生成回答,并通过置信度验证策略过滤低质量样本。量化层通过7,263个视觉问答三元组覆盖锈病覆盖率估算、穗数统计等任务,指令微调层的4,888个样本则采用诊断性提问设计,如‘针对图像中的小麦病害应制定何种杀菌方案?’,所有回答均经过农业专家验证。
特点
该数据集具有显著的领域专业性和任务层次性,其核心价值体现在三个方面:多模态数据的精细标注包含像素级病害区域划分和器官比例量化;问题设计模拟真实农业决策场景,如生长阶段判定误差采用有序的MAE指标评估;知识体系完整覆盖小麦全生育期,包含8个生长阶段和6类生物胁迫的专家级管理方案。特别值得注意的是,量化层的数值型回答与指令层的决策型回答形成互补,共同提升模型从特征识别到管理建议的端到端能力。
使用方法
使用WisWheat需遵循其三层架构的递进训练范式:首先通过预训练层完成视觉-语言模态的粗粒度对齐,保持视觉编码器和LLM参数冻结仅训练投影层;量化层采用GRPO强化学习,针对不同任务设计差异化的奖励函数,如生长阶段分类采用二进制奖励,而锈病严重度评估使用连续比例奖励;指令微调层建议以3e-5学习率进行多轮迭代,重点关注模型在‘思考-答案’结构化输出中的推理链生成。评估时需区分对话任务(GPT-as-judge五维评分)和量化任务(各指标MAE),最佳实践表明Qwen2.5-VL 7B模型经全流程训练后管理建议准确率提升34.6%。
背景与挑战
背景概述
WisWheat是由昆士兰大学的研究团队于2025年提出的一个专注于小麦管理的视觉-语言数据集。作为全球主要粮食作物之一,小麦的产量管理对粮食安全至关重要。传统的小麦管理依赖专家经验,存在主观性强、难以规模化等局限性。该数据集通过三层架构设计(基础预训练数据集、定量分析数据集和指令微调数据集),旨在提升视觉-语言模型在小麦形态识别、定量性状测量及生长阶段管理等方面的专业能力。其包含超过60,000条小麦专用图像-文本数据,显著提升了开源模型Qwen2.5在小麦压力诊断和生长阶段对话任务中的准确率,为农业智能化提供了重要数据支撑。
当前挑战
WisWheat面临的挑战主要体现在领域适应性和数据构建两方面。在领域问题层面,通用视觉-语言模型直接应用于小麦管理时存在量化能力不足和严重幻觉现象,主要由于领域知识匮乏和分布偏移导致;同时,小麦生长受基因型-环境-管理(G×E×M)复杂互作影响,模型需精准捕捉表型特征与农艺决策的关联。在构建过程中,需解决多模态数据对齐难题:基础层需平衡视觉语义的粗粒度适配,定量层要求像素级标注与数值推理的严格对应,而指令层依赖农学专家知识生成可操作的诊断建议。此外,数据的地理局限性(以澳大利亚种植体系为主)也制约了模型的泛化能力。
常用场景
经典使用场景
WisWheat数据集在农业智能管理领域具有广泛的应用价值,特别是在小麦生长监测和病害诊断方面。该数据集通过三个层次的设计,支持视觉语言模型(VLMs)在小麦管理任务中的性能提升。其经典使用场景包括小麦生长阶段的分类、病害识别与管理建议生成等。通过结合图像和文本信息,WisWheat能够为农业专家和农民提供精准的数据支持,从而实现高效的小麦田间管理。
实际应用
WisWheat数据集在实际农业应用中具有重要价值。它能够帮助农民和农业专家快速识别小麦病害(如锈病、白粉病等),并提供针对性的管理建议。此外,该数据集还支持小麦生长阶段的精准判断,从而优化施肥、灌溉等农事操作。通过部署基于WisWheat的智能系统,农业生产者可以实现数据驱动的决策,提高小麦产量和抗逆性,降低管理成本。
衍生相关工作
WisWheat数据集的推出为农业智能管理领域的研究提供了重要基础。基于该数据集,研究者开发了多个小麦专用的视觉语言模型,如微调后的Qwen2.5 VL 7B模型,其在病害诊断和生长阶段分类任务中表现优异。此外,WisWheat还启发了后续研究,如Agri-LLaVA等农业多模态模型的发展,进一步推动了农业人工智能技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作