MRAG-Bench
收藏Hugging Face2024-10-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/uclanlp/MRAG-Bench
下载链接
链接失效反馈官方服务:
资源简介:
MRAG-Bench是一个包含16,130张图片和1,353个人工标注的多选题的数据集,涵盖9种不同的场景。该数据集旨在系统地评估大型视觉语言模型(LVLM)的视觉中心多模态检索增强生成(RAG)能力。数据集包含多个字段,如唯一标识符、方面类型、场景类型、图像数据、问题及其选项、正确答案等。通过评估10个开源和4个专有的LVLM,结果显示所有LVLM在使用图像增强时表现有显著提升,但仍面临有效利用检索知识的挑战。
MRAG-Bench is a dataset containing 16,130 images and 1,353 manually annotated multiple-choice questions, spanning 9 distinct scenarios. This dataset is intended to systematically assess the vision-centric multimodal retrieval-augmented generation (RAG) capabilities of large vision-language models (LVLMs). The dataset includes multiple fields such as unique identifier, aspect type, scenario type, image data, questions with their corresponding options, and correct answers, among others. After evaluating 10 open-source and 4 proprietary LVLMs, the results demonstrate that all LVLMs achieve significant performance improvements when leveraging image information, yet they still face challenges in effectively utilizing retrieved knowledge.
提供机构:
UCLA NLP
创建时间:
2024-10-10
原始信息汇总
MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
数据集概述
- 语言: 英语
- 许可证: CC BY 4.0
- 数据规模: 1K<n<10K
- 任务类别:
- 问答
- 视觉问答
- 多选题
- 数据集名称: MRAG-Bench
数据集信息
- 特征:
id: 字符串,示例的唯一标识符aspect: 字符串,示例的方面类型scenario: 字符串,与条目相关的场景类型image: 图像,以字节格式存储的图像数据gt_images: 序列,包含前5个真实图像信息question: 字符串,关于图像的问题A: 字符串,问题的选项AB: 字符串,问题的选项BC: 字符串,问题的选项CD: 字符串,问题的选项Danswer_choice: 字符串,正确选项的标识符answer: 字符串,问题的正确答案image_type: 字符串,图像对象的类型source: 字符串,图像的来源retrieved_images: 序列,由CLIP检索的前5个图像信息
数据集划分
- test:
- 样本数量: 1353
- 字节数: 4740745536
数据集加载
python from datasets import load_dataset mrag_bench = load_dataset("uclanlp/MRAG-Bench", split="test")
联系信息
- Wenbo Hu: whu@cs.ucla.edu
引用
@article{hu2024mragbench, title={MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models}, author={Hu, Wenbo and Gu, Jia-Chen and Dou, Zi-Yi and Fayyaz, Mohsen and Lu, Pan and Chang, Kai-Wei and Peng, Nanyun}, journal={arXiv preprint arXiv:24}, year={2024} }
搜集汇总
数据集介绍

构建方式
MRAG-Bench数据集的构建基于16,130张图像和1,353个人工标注的多项选择题,涵盖了9种不同的场景。这些数据旨在系统评估大型视觉语言模型(LVLM)在视觉中心的多模态检索增强生成(RAG)能力。数据集的构建过程包括图像的选择与标注、问题的设计以及答案的验证,确保了数据的多样性和准确性。
特点
MRAG-Bench数据集的特点在于其丰富的视觉内容和多样化的场景设置。每个数据点包含图像、问题、四个选项以及正确答案,同时还提供了与问题相关的5个地面真实图像和5个检索图像。这种结构使得数据集不仅适用于视觉问答任务,还能有效评估模型在检索增强生成任务中的表现。此外,数据集的图像类型和来源信息也为进一步的研究提供了丰富的背景信息。
使用方法
使用MRAG-Bench数据集时,可以通过Hugging Face的`datasets`库加载数据。具体操作是使用`load_dataset`函数加载`uclanlp/MRAG-Bench`数据集,并指定`split`参数为`test`。加载后的数据集可以直接用于模型训练和评估,特别是针对视觉问答和检索增强生成任务。此外,数据集还提供了图像语料库,便于研究人员进行图像检索实验。
背景与挑战
背景概述
MRAG-Bench数据集由加州大学洛杉矶分校的研究团队于2024年发布,旨在评估大型视觉语言模型(LVLM)在视觉中心的多模态检索增强生成(RAG)任务中的表现。该数据集包含16,130张图像和1,353个人工标注的多项选择题,覆盖了9种不同的场景。通过提供丰富的视觉和文本信息,MRAG-Bench为研究人员提供了一个系统化的评估框架,以推动LVLM在视觉知识检索和生成方面的能力提升。该数据集的发布不仅填补了多模态检索增强生成领域的评估空白,还为相关研究提供了重要的基准。
当前挑战
MRAG-Bench数据集的核心挑战在于如何有效评估和提升LVLM在视觉知识检索与生成任务中的表现。首先,尽管现有模型在文本知识增强方面取得了显著进展,但在视觉知识检索方面的表现仍显不足,如GPT-4o模型在利用检索到的视觉信息时仅实现了5.82%的性能提升,远低于人类的33.16%。其次,数据集的构建过程中面临了多模态对齐的挑战,包括如何确保图像与文本问题之间的语义一致性,以及如何从大规模图像库中筛选出最具代表性的检索结果。这些问题不仅影响了模型的性能评估,也为未来的研究提出了更高的技术要求。
常用场景
经典使用场景
MRAG-Bench数据集主要用于评估大型视觉语言模型(LVLM)在多模态检索增强生成(RAG)任务中的表现。通过包含16,130张图像和1,353个人工标注的多项选择题,该数据集为研究者提供了一个系统化的评估框架,帮助他们在9种不同的场景下测试模型的能力。
衍生相关工作
基于MRAG-Bench的研究成果,许多相关工作得以展开。例如,研究者们开发了新的多模态检索算法,改进了视觉语言模型的训练方法,并提出了更高效的评估指标。这些工作不仅推动了多模态领域的发展,也为其他相关领域如计算机视觉和自然语言处理提供了新的研究方向。
数据集最近研究
最新研究方向
近年来,随着多模态大模型(LVLM)在视觉-语言任务中的广泛应用,如何有效提升其视觉检索增强生成(RAG)能力成为研究热点。MRAG-Bench作为首个专注于视觉中心的多模态检索增强评估数据集,通过包含16,130张图像和1,353道人工标注的多选题,系统评估了模型在9种不同场景下的表现。研究表明,尽管现有模型在文本知识增强方面取得了一定进展,但在视觉知识利用上仍存在显著不足。例如,GPT-4o在使用真实视觉信息时仅提升了5.82%的性能,远低于人类参与者的33.16%提升率。这一差距凸显了当前模型在视觉知识融合与推理能力上的局限性,也为未来研究指明了方向,即通过优化视觉检索机制和增强多模态对齐能力,进一步提升模型的综合表现。MRAG-Bench的发布为学术界提供了一个标准化评估平台,推动了多模态检索增强技术的创新与发展。
以上内容由遇见数据集搜集并总结生成



