CRAG-MM
收藏arXiv2025-10-30 更新2025-11-02 收录
下载链接:
https://huggingface.co/crag-mm-2025
下载链接
链接失效反馈官方服务:
资源简介:
CRAG-MM是一个全面的多模态多轮RAG基准数据集,旨在推动可穿戴设备的多模态RAG技术的发展。该数据集包含6.5K个单轮和2K个多轮对话,涵盖13个领域,包括6.2K张自我中心图像,旨在模拟可穿戴设备的捕捉。数据集的设计考虑了真实世界的挑战,如五种类型的图像质量问题和六种问题类型,以及不同实体流行度、信息动态性和对话轮次。CRAG-MM为研究人员提供了一个公平和有挑战性的平台,以评估和改进多模态RAG系统。
CRAG-MM is a comprehensive multimodal multi-turn Retrieval-Augmented Generation (RAG) benchmark dataset developed to advance multimodal RAG technologies for wearable devices. This dataset includes 6.5K single-turn and 2K multi-turn dialogues spanning 13 domains, alongside 6.2K egocentric images that simulate the image capture scenario of wearable devices. The dataset is designed with real-world challenges in mind, covering five types of image quality issues, six categories of question types, as well as variations in entity popularity, information dynamics, and dialogue turns. CRAG-MM provides researchers with a fair and challenging platform to evaluate and improve multimodal RAG systems.
提供机构:
Meta Reality Labs, Meta Superintelligence Labs, FAIR, Meta
创建时间:
2025-10-30
搜集汇总
数据集介绍

构建方式
在可穿戴人工智能设备日益普及的背景下,CRAG-MM数据集的构建采用了系统化的数据采集与标注流程。研究团队通过预定义采集和自由采集两种方式,收集了6.2K以第一人称视角拍摄的自我中心图像和1.7K公开图像,覆盖13个领域。针对图像质量问题,专门设计了15%的自我中心图像在低光照、模糊、截断等复杂条件下采集。问题生成结合知识图谱模板与人工标注,构建了6.5K单轮问答对和2K平均长度为4.9轮的多轮对话,确保问题类型涵盖识别、知识检索、多跳推理等六类现实场景需求。
特点
该数据集的核心特点体现在其多维度挑战性设计上。图像集合中79%为自我中心视角,模拟了可穿戴设备实际拍摄中存在的物体微小、旋转或遮挡等复杂情况。问题设计深度融合实体流行度差异,21%的问题涉及长尾实体,52%的问题需要多源信息综合。多轮对话中38%包含领域转换,真实还原人类对话中的话题漂移现象。检索资源配备包含6.8万条目的图像知识图谱和80万网页的文本语料,通过1:20的图像检索负样本比例构建了接近真实环境的评估体系。
使用方法
该数据集通过三个渐进式任务支持多模态检索增强生成系统的评估:单源增强任务提供图像知识图谱检索接口,测试基础实体识别与答案生成能力;多源增强任务引入网页检索接口,评估多源信息融合与去噪性能;多轮对话任务则要求系统结合完整对话历史进行上下文理解。评估采用真实性指标,对单轮问答按完全正确、缺失、错误分别计1、0、-1分,多轮对话设置连续错误提前终止机制,通过LLM作为评判官实现99.1%评估准确率。数据集已托管于HuggingFace平台,提供标准化搜索API与数据分割方案,支持验证集、公开测试集和私有测试集的系统化评测。
背景与挑战
背景概述
随着可穿戴智能设备的普及,多模态检索增强生成技术成为支撑视觉对话系统的核心支柱。2025年由Meta研究院联合发布的CRAG-MM基准数据集,首次针对可穿戴场景下的多模态多轮对话需求,构建了包含6.5K单轮问答与2K多轮对话的评估体系。该数据集覆盖13个领域,通过6.2K以第一视角采集的具身图像,模拟真实环境中的视觉交互场景,其设计的五类图像质量缺陷与六种问题类型,为评估模型在复杂现实条件下的认知能力提供了科学依据。
当前挑战
该数据集主要应对多模态检索增强生成系统在可穿戴场景下的双重挑战:在领域问题层面,需解决低质量图像实体识别、跨模态知识融合、多轮对话上下文建模等核心难题,现有最优模型在单轮问答中的真实性仅达32%;在构建过程中,需克服具身图像采集的视角偏差、多源检索库噪声干扰、以及长尾实体知识覆盖不足等技术瓶颈,其图像检索库对查询实体的召回率仅为52%。
常用场景
经典使用场景
在可穿戴智能设备日益普及的背景下,CRAG-MM数据集为多模态检索增强生成系统提供了标准化的评估框架。该数据集通过模拟真实场景中的视觉问答任务,涵盖了从简单物体识别到复杂多跳推理的多样化问题类型,尤其聚焦于可穿戴设备拍摄的以自我中心视角图像。其经典使用场景包括智能眼镜用户对视野中实体进行即时信息查询,例如识别地标历史、比较商品价格或获取设备维修指导,这些场景均要求系统结合图像内容与外部知识库进行精准回答。
解决学术问题
CRAG-MM针对当前多模态研究中的关键挑战提出了系统性解决方案。传统视觉问答基准过度依赖常识知识,难以评估需要外部事实支持的复杂查询;而现有检索增强生成基准多局限于文本模态。该数据集通过整合13个领域的6500个单轮问答和2000个多轮对话,首次系统化解决了多模态环境下实体识别噪声、低质量图像理解、动态信息检索等学术难题。其设计的图像知识图谱与网页检索接口,为研究社区提供了可复现的评估协议,显著推动了多模态可信问答领域的标准化进程。
衍生相关工作
CRAG-MM的发布催生了多模态检索增强生成领域的系列创新研究。基于该数据集举办的KDD Cup 2025竞赛吸引了近千名参与者,获胜方案将基线性能提升了28%,衍生出融合多任务学习与监督微调的先进模型架构。相关研究进一步拓展至跨模态实体链接、噪声鲁棒性优化等方向,例如针对低光照图像的增强识别算法、基于对话历史的上下文建模方法。这些工作共同构建起多模态可信问答的技术体系,为产业界开发更可靠的视觉对话系统奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



