five

Dyn-VQA Dataset

收藏
github2024-11-07 更新2024-11-08 收录
下载链接:
https://github.com/Alibaba-NLP/OmniSearch
下载链接
链接失效反馈
官方服务:
资源简介:
Dyn-VQA数据集包含三种类型的动态问题,用于评估多模态检索增强生成方法的性能。

The Dyn-VQA Dataset contains three types of dynamic questions, which are used to evaluate the performance of multimodal retrieval-augmented generation methods.
创建时间:
2024-10-24
原始信息汇总

Dyn-VQA Dataset

数据集概述

  • 名称: Dyn-VQA Dataset
  • 类型: 多模态问答数据集
  • 描述: 包含三种类型的动态问题,旨在反映现实世界问题对动态知识检索的需求。

数据格式

数据集的JSON项组织格式如下: json { "image_url": "https://www.pcarmarket.com/static/media/uploads/galleries/photos/uploads/galleries/22387-pasewark-1986-porsche-944/.thumbnails/IMG_7102.JPG.jpg/IMG_7102.JPG-tiny-2048x0-0.5x0.jpg", "question": "What is the model of car from this brand?", "question_id": qid, "answer": ["保时捷 944", "Porsche 944."] }

更新信息

  • 更新频率: 定期更新
  • 最新版本: 202410

依赖环境

  • Python = 3.11.9
  • PyTorch (>= 2.0.0)
  • pillow = 10.4.0
  • requests = 2.32.3
  • google-search-results = 2.4.2
  • serpapi = 0.1.5

运行说明

  • 代码发布: 已发布基于GPT-4V的OmniSearch代码,支持英文问题。
  • 配置要求: 运行前需替换为个人OpenAI和Google搜索API密钥。
  • 运行命令: bash python main.py --test_dataset path/to/dataset.jsonl --dataset_name NAME --meta_save_path path/to/results

评估方法

  • 评估脚本: 提供用于评估输出答案的token F1-Recall的脚本。
  • 使用方法: bash python evaluate.py --evaluate_file_path [path to output jsonl file] --lang [language of the QA dateset: en/zh]

未来计划

  • 发布基于Qwen-VL-Chat的OmniSearch代码
  • 发布相应的模型权重

引用信息

bigquery @article{li2024benchmarkingmultimodalretrievalaugmented, title={Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent}, author={Yangning Li and Yinghui Li and Xinyu Wang and Yong Jiang and Zhen Zhang and Xinran Zheng and Hui Wang and Hai-Tao Zheng and Pengjun Xie and Philip S. Yu and Fei Huang and Jingren Zhou}, year={2024}, eprint={2411.02937}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.02937}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Dyn-VQA数据集的构建旨在解决现有视觉问答(VQA)基准在动态知识检索需求上的不足。该数据集包含了三种类型的动态问题,这些问题要求系统在回答过程中进行实时知识检索。数据集的每个条目均以json格式组织,包含图像URL、问题、问题ID和答案等字段,确保了数据结构的清晰和一致性。通过这种方式,Dyn-VQA数据集为评估多模态检索增强生成(mRAG)方法提供了新的基准。
使用方法
使用Dyn-VQA数据集时,用户首先需要安装所需的依赖包,并配置相应的API密钥。随后,可以通过运行main.py文件来加载数据集并进行模型测试。数据集的输出结果将以jsonl格式保存,便于后续的评估和分析。评估脚本支持对输出答案的F1-Recall进行计算,用户可以根据需要选择不同的语言进行评估。
背景与挑战
背景概述
Dyn-VQA数据集是由Xinyu Wang、Shuo Guo、Zheng Zhang和Yangning Li等研究人员于2024年创建的,旨在解决多模态检索增强生成(mRAG)领域中的动态知识检索问题。该数据集包含三种类型的动态问题,旨在揭示现有基于视觉问答(VQA)的mRAG基准在反映真实世界问题动态知识需求方面的不足。Dyn-VQA数据集的提出,不仅为多模态检索增强生成技术提供了新的评估标准,还推动了自适应规划代理在多模态RAG中的应用研究。
当前挑战
Dyn-VQA数据集面临的挑战主要集中在两个方面。首先,构建过程中需要处理多模态数据的动态性和复杂性,确保数据集能够准确反映真实世界问题的动态知识需求。其次,现有的多模态检索增强生成方法在处理动态问题时表现不佳,缺乏足够的相关知识提供能力,这要求研究者开发新的方法来提升多模态RAG系统的性能。此外,数据集的定期更新也是一个挑战,需要持续维护和扩展以保持其时效性和实用性。
常用场景
经典使用场景
在多模态检索增强生成(mRAG)领域,Dyn-VQA数据集被广泛用于评估和提升模型的动态知识检索能力。该数据集包含三种类型的动态问题,这些问题要求模型在回答过程中进行实时知识检索,从而模拟真实世界中复杂问题的解决过程。通过使用Dyn-VQA数据集,研究人员能够更准确地评估现有mRAG方法在处理动态问题时的表现,并推动相关技术的进步。
解决学术问题
Dyn-VQA数据集解决了现有VQA基准在反映真实世界问题动态知识检索需求方面的不足。通过引入动态问题,该数据集促使学术界重新审视和改进多模态检索增强生成技术,特别是在处理需要实时知识更新的复杂问题时。这一改进不仅提升了模型的实用性和准确性,还为相关领域的研究提供了新的方向和挑战。
实际应用
在实际应用中,Dyn-VQA数据集被用于开发和优化自适应检索代理,如OmniSearch,该代理能够根据问题的解决阶段和当前检索内容实时规划检索动作。这种技术在智能客服、在线教育、医疗诊断等领域具有广泛的应用前景,能够显著提高系统的响应速度和问题解决能力,为用户提供更加精准和高效的服务。
数据集最近研究
最新研究方向
在多模态检索增强生成(mRAG)领域,Dyn-VQA数据集的最新研究方向主要集中在开发自适应规划代理,以应对动态知识检索的需求。该数据集揭示了现有基于视觉问答(VQA)的mRAG基准在反映真实世界问题动态性方面的不足,并提出了包含三种动态问题类型的新型Dyn-VQA数据集。研究者们通过在Dyn-VQA上对多种mRAG方法进行基准测试,展示了这些方法在提供足够且相关知识方面的缺陷,从而推动了自适应检索代理的发展,如OmniSearch,这是首个针对多模态RAG的规划代理。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作