MIRAGE

Name: MIRAGE
Creator: 伊利诺伊大学厄巴纳-香槟分校、亚马逊
Published: 2025-06-25 11:07:54
License: 暂无描述

arXiv2025-06-25 更新2025-06-28 收录

下载链接：

https://huggingface.co/MIRAGE-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

MIRAGE是一个多模态信息寻求和推理基准，专为农业领域设计。该数据集由超过35,000个真实用户与专家的交互组成，涵盖了作物健康、病虫害诊断和作物管理等场景。数据集包括超过7,000个独特的生物实体，包括植物种类、害虫和疾病，是视觉语言模型领域中最具分类多样性的基准之一。MIRAGE的特点是未指定、上下文丰富的场景，要求模型推断潜在的知识差距，处理稀有实体，并主动引导交互或做出响应。该数据集旨在解决现实世界中知识密集型领域的专家咨询问题。

MIRAGE is a multimodal information-seeking and reasoning benchmark tailored for the agricultural domain. This dataset comprises over 35,000 real-world user-expert interactions, encompassing scenarios including crop health, pest and disease diagnosis, and crop management. It contains over 7,000 distinct biological entities, including plant species, pests, and diseases, ranking among the most categorically diverse benchmarks in the vision-language model field. MIRAGE features unspecified, context-rich scenarios that mandate models to infer latent knowledge gaps, handle rare entities, and proactively initiate interactions or generate appropriate responses. This benchmark aims to address expert consultation challenges in knowledge-intensive real-world domains.

提供机构：

伊利诺伊大学厄巴纳-香槟分校、亚马逊

创建时间：

2025-06-25

搜集汇总

数据集介绍

构建方式

MIRAGE数据集通过多阶段严格筛选流程构建，基于超过35,000个真实用户与农业专家的交互记录。首先从AskExtension平台收集218,000条原始对话，经过数据清洗去除不完整或低质量样本后，采用四步标准化流程：1)数据分类为识别类（植物/害虫/病害鉴定）和管理类（栽培/虫害治理等）两大子集；2)通过GPT-4.1增强专家回答的完整性和视觉描述；3)提取7,600种生物实体并建立同义词库；4)基于语境依赖标注划分标准集（17,532条）与情境集（3,934条），后者包含需要推断隐含时空信息的复杂案例。多模态数据整合中，81%的样本包含1-3张用户提交的田间照片，70%的专家回答附带扩展知识链接。

使用方法

使用该数据集时，建议分三阶段进行：1)基础评估采用MMST标准集，输入用户问题+图像，要求模型生成结构化回答（实体识别→因果解释→管理建议），通过自动化评测框架计算识别准确率（精确匹配实体名称）和推理分（0-4级）；2)进阶测试使用情境集，验证模型利用元数据推断隐含信息的能力；3)决策能力评估通过MMMT任务，采用链式思维（CoT）提示评估澄清-响应决策准确率。配套提供的LLM评委体系（DeepSeek/Qwen3/Phi-4组合）可对回答进行多维度评分（准确性/相关性/完整性/简约性），Fleiss' κ达到0.82显示评委一致性优良。为优化模型表现，推荐先用标准训练集进行LoRA微调，再在包含28%未知实体的测试集上验证泛化能力。

背景与挑战

背景概述

MIRAGE（Multimodal Information-seeking and Reasoning in Agricultural Expert-Guided conversations）是一个专注于农业领域多模态信息检索与推理的基准数据集，由伊利诺伊大学厄巴纳-香槟分校和亚马逊的研究团队于2025年6月提出。该数据集基于超过35,000个真实用户与专家的咨询对话构建，涵盖作物健康、害虫诊断和作物管理等多种场景，包含7,000多个独特的生物实体。MIRAGE旨在评估模型在真实世界知识密集型领域中的多模态推理、澄清策略和长文本生成能力，填补了现有基准在开放世界设置和专家级对话决策评估方面的空白。

当前挑战

MIRAGE面临的挑战主要包括两方面：1) 领域问题挑战：现有视觉语言模型在处理开放世界设置中的罕见实体和模糊查询时表现不佳，尤其在需要因果推理和隐含上下文推断的农业咨询场景中准确率显著下降（如GPT-4.1在实体识别任务中仅达43.9%准确率）。2) 构建过程挑战：数据清洗需处理大量非结构化对话（218,000条原始交互），需设计多阶段流程来筛选高质量样本；同时需解决地理和时间等隐含上下文的标注难题，并通过自动化流程整合专家回答中的外部知识链接（约70%回答包含补充URL）。此外，多模态评估框架需平衡事实准确性与对话实用性，开发新型LLM评委集成方法以解决传统指标与人类判断不一致的问题。

常用场景

经典使用场景

MIRAGE数据集作为农业领域多模态专家咨询的基准测试工具，其经典使用场景集中在模拟真实农业专家与用户的交互过程。数据集通过整合自然语言查询、专家撰写的响应及图像上下文，为评估模型在农业诊断、病虫害识别和作物管理等复杂场景中的多模态推理能力提供了高保真环境。特别适用于测试模型在开放世界环境下处理模糊查询、罕见生物实体识别以及生成可执行建议的能力。

解决学术问题

MIRAGE有效解决了当前视觉语言模型在知识密集型领域评估不足的核心问题。针对现有基准测试在真实专家咨询场景中的局限性，该数据集通过引入35,000余条真实用户-专家对话记录，覆盖7,000余种生物实体，为学术界提供了评估模型在因果推理、上下文重构和交互决策等关键能力的标准化平台。其特有的情境化子集和开放世界设定，显著推进了模型在隐含知识缺口推断和长尾实体处理方面的研究进展。

实际应用

在实际应用层面，MIRAGE直接服务于农业技术推广和数字农业建设。基于该数据集训练的模型可部署于农业咨询平台，为农户提供即时的病虫害视觉诊断、作物健康评估和精准管理建议。其多轮对话架构特别适合开发具备渐进式问诊能力的农业助手，能有效缓解偏远地区农业专家资源不足的问题，同时降低因错误诊断导致的农业生产损失。

数据集最近研究