five

PROVE|视觉语言模型数据集|模型评估数据集

收藏
huggingface2024-10-24 更新2024-12-12 收录
视觉语言模型
模型评估
下载链接:
https://huggingface.co/datasets/Salesforce/PROVE
下载链接
链接失效反馈
资源简介:
PROVE是一个用于评估视觉语言模型(VLM)对开放式查询响应的基准测试。它通过提供一个大型语言模型(LLM)与高保真场景图表示,生成多样化的问答对和可执行的程序来验证每个问答对,从而构建了一个包含10.5k个具有视觉基础的挑战性问答对的基准。数据集还介绍了如何使用PROVE进行模型评估,并提供了一个排行榜来展示不同模型在PROVE上的表现。
提供机构:
Salesforce
创建时间:
2024-10-18
原始信息汇总

PROVE 数据集概述

基本信息

  • 许可证: Apache 2.0
  • 语言: 英语
  • 配置:
    • 名称: default
    • 数据文件:
      • 分割: test
      • 路径: prove.json

数据集描述

  • 名称: Programmatic VLM Evaluation (PROVE)
  • 目标: 评估视觉语言模型(VLM)对开放式查询的响应,量化响应中的幻觉效应。
  • 构建方法: 使用大型语言模型(LLM)生成多样化的问答(QA)对,并通过场景图对象执行程序来验证每个QA对。
  • 规模: 包含10.5k个具有视觉基础的挑战性QA对。

评估方法

  • 策略: 基于场景图的程序化评估策略,测量响应的有用性和真实性。
  • 模型评估: 评估多个VLM在PROVE上的有用性和真实性权衡。

快速开始

  • 安装: bash conda create -n prove python=3.10 conda activate prove; pip3 install -r requirements.txt;

  • 使用: bash python evaluate.py --vlm <vlm_name> --response_json <response_json_path> --scores_path <output_json_path>

排行榜

模型 hscore tscore average
Qwen2 (2b) 69.36 80.64 75.0
Intern-VL2 (2b) 73.96 79.51 76.74
Phi-3.5-vision (4B) 73.35 82.27 77.81
LLaVA-1.5 (7B) 72.67 82.58 77.62
llava-next (7b) 74.28 80.03 77.15
Intern-VL2 (8b) 74.55 80.56 77.56
pixtral (12b) 73.34 82.43 77.88
llava-1.5 (13b) 72.46 82.4 77.43
Intern-VL2 (26b) 74.63 79.23 76.93
claude3.5-sonnet 71.06 77.31 74.19
gpt-4o-mini 73.18 79.24 76.21
gemini-1.5-flash 72.73 81.74 77.23
gpt-4o 76.53 80.92 78.72

引用

@misc{prabhu2024prove, title={Trust but Verify: Programmatic VLM Evaluation in the Wild}, author={Viraj Prabhu and Senthil Purushwalkam and An Yan and Caiming Xiong and Ran Xu}, year={2024}, eprint={2410.13121}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2410.13121}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型(VLMs)领域,生成看似合理但实际错误的响应是一个常见问题。为了量化这种幻觉效应,PROVE数据集通过提供高保真场景图表示,利用大语言模型(LLM)生成多样化的问答对(QA pairs),并设计可执行的程序来验证每个问答对的正确性。最终构建了一个包含10.5k个具有视觉基础的问答对的基准数据集。
使用方法
使用PROVE数据集进行VLMs评估时,首先需要生成对prove.json中问答对的响应,并将其保存为指定格式的JSON文件。随后,通过运行evaluate.py脚本,输入模型名称、响应文件路径和输出分数路径,即可获得模型在帮助性和真实性上的评分。这一流程使得研究者能够便捷地比较不同模型在PROVE基准上的表现。
背景与挑战
背景概述
在视觉-语言模型(VLMs)的研究领域,模型在生成对视觉查询的响应时,常常产生看似合理但实际错误的回答。为了量化这种幻觉效应,研究人员需要一种可靠的方法来验证每个响应中的声明。2024年,Salesforce AI Research的研究团队提出了PROVE(Programmatic VLM Evaluation)这一新的基准测试范式,旨在评估VLMs对开放式查询的响应。PROVE通过提供高保真场景图表示,并利用大语言模型(LLM)生成多样化的问答对及验证程序,构建了一个包含10.5k个具有挑战性但视觉上可验证的问答对的基准。该数据集不仅推动了VLMs在生成响应时的真实性和帮助性之间的平衡研究,还为相关领域的模型评估提供了新的方法论。
当前挑战
PROVE数据集在构建和应用过程中面临多重挑战。首先,视觉-语言模型在生成开放式查询响应时,往往难以避免幻觉现象,即生成看似合理但实际错误的内容。如何准确量化这种幻觉效应,是PROVE试图解决的核心问题。其次,在数据集的构建过程中,研究人员需要确保生成的问答对在视觉上具有可验证性,这要求对高保真场景图进行精细的标注和处理。此外,PROVE采用程序化评估策略,要求模型在统一的场景图框架下同时评估响应的帮助性和真实性,这对模型的综合能力提出了更高的要求。最后,尽管PROVE为VLMs的评估提供了新的基准,但如何在更广泛的场景中推广和应用这一方法,仍是一个亟待解决的问题。
常用场景
经典使用场景
PROVE数据集在视觉-语言模型(VLM)评估领域具有重要应用。该数据集通过构建高保真场景图,生成多样化的问答对,并利用程序化方法验证每个问答对的准确性。这一方法使得PROVE成为评估VLM在开放式查询中生成响应的有效工具,特别是在衡量模型生成内容的真实性和有用性方面。
解决学术问题
PROVE数据集解决了视觉-语言模型在生成开放式查询响应时常见的幻觉问题。通过程序化评估策略,PROVE能够量化模型生成内容的真实性和有用性,从而帮助研究者更好地理解模型的表现。这一方法为VLM的评估提供了新的范式,推动了该领域的研究进展。
实际应用
在实际应用中,PROVE数据集被广泛用于评估和改进视觉-语言模型的性能。通过该数据集,开发者可以测试模型在复杂视觉场景中的表现,优化模型生成内容的准确性和可靠性。此外,PROVE还为模型在自动驾驶、智能客服等领域的应用提供了重要的评估依据。
数据集最近研究
最新研究方向
在视觉-语言模型(VLM)领域,PROVE数据集为评估模型在开放式查询中的响应提供了新的基准范式。通过结合大语言模型(LLM)和高保真场景图表示,PROVE生成了10.5k个具有挑战性但视觉上可验证的问答对。该数据集的前沿研究方向集中在程序化评估策略上,旨在统一场景图框架内衡量响应的帮助性和真实性。当前研究热点包括探索不同VLM在PROVE上的表现,特别是如何在帮助性和真实性之间取得平衡。这一研究不仅推动了VLM的评估方法创新,还为模型在实际应用中的可靠性提供了重要参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录