Dyn-VQA Dataset

github2024-11-07 更新2024-11-08 收录

下载链接：

https://github.com/Alibaba-NLP/OmniSearch

下载链接

链接失效反馈

官方服务：

资源简介：

Dyn-VQA数据集包含三种类型的动态问题，用于评估多模态检索增强生成方法的性能。

The Dyn-VQA Dataset contains three types of dynamic questions, which are used to evaluate the performance of multimodal retrieval-augmented generation methods.

创建时间：

2024-10-24

原始信息汇总

Dyn-VQA Dataset

数据集概述

名称: Dyn-VQA Dataset
类型: 多模态问答数据集
描述: 包含三种类型的动态问题，旨在反映现实世界问题对动态知识检索的需求。

数据格式

数据集的JSON项组织格式如下： json { "image_url": "https://www.pcarmarket.com/static/media/uploads/galleries/photos/uploads/galleries/22387-pasewark-1986-porsche-944/.thumbnails/IMG_7102.JPG.jpg/IMG_7102.JPG-tiny-2048x0-0.5x0.jpg", "question": "What is the model of car from this brand?", "question_id": qid, "answer": ["保时捷 944", "Porsche 944."] }

更新信息

更新频率: 定期更新
最新版本: 202410

依赖环境

Python = 3.11.9
PyTorch (>= 2.0.0)
pillow = 10.4.0
requests = 2.32.3
google-search-results = 2.4.2
serpapi = 0.1.5

运行说明

代码发布: 已发布基于GPT-4V的OmniSearch代码，支持英文问题。
配置要求: 运行前需替换为个人OpenAI和Google搜索API密钥。
运行命令: bash python main.py --test_dataset path/to/dataset.jsonl --dataset_name NAME --meta_save_path path/to/results

评估方法

评估脚本: 提供用于评估输出答案的token F1-Recall的脚本。
使用方法: bash python evaluate.py --evaluate_file_path [path to output jsonl file] --lang [language of the QA dateset: en/zh]

未来计划

发布基于Qwen-VL-Chat的OmniSearch代码
发布相应的模型权重

引用信息

bigquery @article{li2024benchmarkingmultimodalretrievalaugmented, title={Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent}, author={Yangning Li and Yinghui Li and Xinyu Wang and Yong Jiang and Zhen Zhang and Xinran Zheng and Hui Wang and Hai-Tao Zheng and Pengjun Xie and Philip S. Yu and Fei Huang and Jingren Zhou}, year={2024}, eprint={2411.02937}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.02937}, }

搜集汇总

数据集介绍

构建方式

Dyn-VQA数据集的构建旨在解决现有视觉问答（VQA）基准在动态知识检索需求上的不足。该数据集包含了三种类型的动态问题，这些问题要求系统在回答过程中进行实时知识检索。数据集的每个条目均以json格式组织，包含图像URL、问题、问题ID和答案等字段，确保了数据结构的清晰和一致性。通过这种方式，Dyn-VQA数据集为评估多模态检索增强生成（mRAG）方法提供了新的基准。

使用方法

使用Dyn-VQA数据集时，用户首先需要安装所需的依赖包，并配置相应的API密钥。随后，可以通过运行main.py文件来加载数据集并进行模型测试。数据集的输出结果将以jsonl格式保存，便于后续的评估和分析。评估脚本支持对输出答案的F1-Recall进行计算，用户可以根据需要选择不同的语言进行评估。

背景与挑战

背景概述

Dyn-VQA数据集是由Xinyu Wang、Shuo Guo、Zheng Zhang和Yangning Li等研究人员于2024年创建的，旨在解决多模态检索增强生成（mRAG）领域中的动态知识检索问题。该数据集包含三种类型的动态问题，旨在揭示现有基于视觉问答（VQA）的mRAG基准在反映真实世界问题动态知识需求方面的不足。Dyn-VQA数据集的提出，不仅为多模态检索增强生成技术提供了新的评估标准，还推动了自适应规划代理在多模态RAG中的应用研究。

当前挑战

Dyn-VQA数据集面临的挑战主要集中在两个方面。首先，构建过程中需要处理多模态数据的动态性和复杂性，确保数据集能够准确反映真实世界问题的动态知识需求。其次，现有的多模态检索增强生成方法在处理动态问题时表现不佳，缺乏足够的相关知识提供能力，这要求研究者开发新的方法来提升多模态RAG系统的性能。此外，数据集的定期更新也是一个挑战，需要持续维护和扩展以保持其时效性和实用性。

常用场景

经典使用场景

在多模态检索增强生成（mRAG）领域，Dyn-VQA数据集被广泛用于评估和提升模型的动态知识检索能力。该数据集包含三种类型的动态问题，这些问题要求模型在回答过程中进行实时知识检索，从而模拟真实世界中复杂问题的解决过程。通过使用Dyn-VQA数据集，研究人员能够更准确地评估现有mRAG方法在处理动态问题时的表现，并推动相关技术的进步。

解决学术问题

Dyn-VQA数据集解决了现有VQA基准在反映真实世界问题动态知识检索需求方面的不足。通过引入动态问题，该数据集促使学术界重新审视和改进多模态检索增强生成技术，特别是在处理需要实时知识更新的复杂问题时。这一改进不仅提升了模型的实用性和准确性，还为相关领域的研究提供了新的方向和挑战。

实际应用

在实际应用中，Dyn-VQA数据集被用于开发和优化自适应检索代理，如OmniSearch，该代理能够根据问题的解决阶段和当前检索内容实时规划检索动作。这种技术在智能客服、在线教育、医疗诊断等领域具有广泛的应用前景，能够显著提高系统的响应速度和问题解决能力，为用户提供更加精准和高效的服务。

数据集最近研究