MRAG-Bench|视觉语言模型数据集|多模态检索增强生成数据集

huggingface2024-10-10 更新2024-12-12 收录

视觉语言模型

多模态检索增强生成

下载链接：

https://huggingface.co/datasets/uclanlp/MRAG-Bench

下载链接

链接失效反馈

资源简介：

MRAG-Bench是一个包含16,130张图片和1,353个人工标注的多选题的数据集，涵盖9种不同的场景。该数据集旨在系统地评估大型视觉语言模型（LVLM）的视觉中心多模态检索增强生成（RAG）能力。数据集包含多个字段，如唯一标识符、方面类型、场景类型、图像数据、问题及其选项、正确答案等。通过评估10个开源和4个专有的LVLM，结果显示所有LVLM在使用图像增强时表现有显著提升，但仍面临有效利用检索知识的挑战。

提供机构：

UCLA NLP

创建时间：

2024-10-10

原始信息汇总

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

数据集概述

语言: 英语
许可证: CC BY 4.0
数据规模: 1K<n<10K
任务类别:
- 问答
- 视觉问答
- 多选题
数据集名称: MRAG-Bench

数据集信息

特征:
- id: 字符串，示例的唯一标识符
- aspect: 字符串，示例的方面类型
- scenario: 字符串，与条目相关的场景类型
- image: 图像，以字节格式存储的图像数据
- gt_images: 序列，包含前5个真实图像信息
- question: 字符串，关于图像的问题
- A: 字符串，问题的选项A
- B: 字符串，问题的选项B
- C: 字符串，问题的选项C
- D: 字符串，问题的选项D
- answer_choice: 字符串，正确选项的标识符
- answer: 字符串，问题的正确答案
- image_type: 字符串，图像对象的类型
- source: 字符串，图像的来源
- retrieved_images: 序列，由CLIP检索的前5个图像信息

数据集划分

test:
- 样本数量: 1353
- 字节数: 4740745536

数据集加载

python from datasets import load_dataset mrag_bench = load_dataset("uclanlp/MRAG-Bench", split="test")

联系信息

Wenbo Hu: whu@cs.ucla.edu

引用

@article{hu2024mragbench, title={MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models}, author={Hu, Wenbo and Gu, Jia-Chen and Dou, Zi-Yi and Fayyaz, Mohsen and Lu, Pan and Chang, Kai-Wei and Peng, Nanyun}, journal={arXiv preprint arXiv:24}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

MRAG-Bench数据集的构建基于16,130张图像和1,353个人工标注的多项选择题，涵盖了9种不同的场景。这些数据旨在系统评估大型视觉语言模型（LVLM）在视觉中心的多模态检索增强生成（RAG）能力。数据集的构建过程包括图像的选择与标注、问题的设计以及答案的验证，确保了数据的多样性和准确性。

特点

MRAG-Bench数据集的特点在于其丰富的视觉内容和多样化的场景设置。每个数据点包含图像、问题、四个选项以及正确答案，同时还提供了与问题相关的5个地面真实图像和5个检索图像。这种结构使得数据集不仅适用于视觉问答任务，还能有效评估模型在检索增强生成任务中的表现。此外，数据集的图像类型和来源信息也为进一步的研究提供了丰富的背景信息。

使用方法

使用MRAG-Bench数据集时，可以通过Hugging Face的`datasets`库加载数据。具体操作是使用`load_dataset`函数加载`uclanlp/MRAG-Bench`数据集，并指定`split`参数为`test`。加载后的数据集可以直接用于模型训练和评估，特别是针对视觉问答和检索增强生成任务。此外，数据集还提供了图像语料库，便于研究人员进行图像检索实验。

背景与挑战

背景概述

MRAG-Bench数据集由加州大学洛杉矶分校的研究团队于2024年发布，旨在评估大型视觉语言模型（LVLM）在视觉中心的多模态检索增强生成（RAG）任务中的表现。该数据集包含16,130张图像和1,353个人工标注的多项选择题，覆盖了9种不同的场景。通过提供丰富的视觉和文本信息，MRAG-Bench为研究人员提供了一个系统化的评估框架，以推动LVLM在视觉知识检索和生成方面的能力提升。该数据集的发布不仅填补了多模态检索增强生成领域的评估空白，还为相关研究提供了重要的基准。

当前挑战

MRAG-Bench数据集的核心挑战在于如何有效评估和提升LVLM在视觉知识检索与生成任务中的表现。首先，尽管现有模型在文本知识增强方面取得了显著进展，但在视觉知识检索方面的表现仍显不足，如GPT-4o模型在利用检索到的视觉信息时仅实现了5.82%的性能提升，远低于人类的33.16%。其次，数据集的构建过程中面临了多模态对齐的挑战，包括如何确保图像与文本问题之间的语义一致性，以及如何从大规模图像库中筛选出最具代表性的检索结果。这些问题不仅影响了模型的性能评估，也为未来的研究提出了更高的技术要求。

常用场景

经典使用场景

MRAG-Bench数据集主要用于评估大型视觉语言模型（LVLM）在多模态检索增强生成（RAG）任务中的表现。通过包含16,130张图像和1,353个人工标注的多项选择题，该数据集为研究者提供了一个系统化的评估框架，帮助他们在9种不同的场景下测试模型的能力。

衍生相关工作

基于MRAG-Bench的研究成果，许多相关工作得以展开。例如，研究者们开发了新的多模态检索算法，改进了视觉语言模型的训练方法，并提出了更高效的评估指标。这些工作不仅推动了多模态领域的发展，也为其他相关领域如计算机视觉和自然语言处理提供了新的研究方向。

数据集最近研究

最新研究方向

近年来，随着多模态大模型（LVLM）在视觉-语言任务中的广泛应用，如何有效提升其视觉检索增强生成（RAG）能力成为研究热点。MRAG-Bench作为首个专注于视觉中心的多模态检索增强评估数据集，通过包含16,130张图像和1,353道人工标注的多选题，系统评估了模型在9种不同场景下的表现。研究表明，尽管现有模型在文本知识增强方面取得了一定进展，但在视觉知识利用上仍存在显著不足。例如，GPT-4o在使用真实视觉信息时仅提升了5.82%的性能，远低于人类参与者的33.16%提升率。这一差距凸显了当前模型在视觉知识融合与推理能力上的局限性，也为未来研究指明了方向，即通过优化视觉检索机制和增强多模态对齐能力，进一步提升模型的综合表现。MRAG-Bench的发布为学术界提供了一个标准化评估平台，推动了多模态检索增强技术的创新与发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T

该仓库收集了多种与手语识别和翻译相关的数据集，旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型（如RGB、深度、骨骼）和来自不同国家的数据，用于支持手语识别和翻译技术的研究。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录