ProBench

github2025-03-11 更新2025-03-16 收录

下载链接：

https://github.com/Yan98/ProBench_eval

下载链接

链接失效反馈

官方服务：

资源简介：

ProBench是一个基准测试工具，包含需要深入专家级知识来解决的开放式多模态查询。它包含10个任务领域和56个子领域，支持17种语言，并支持多达13轮对话。

ProBench is a benchmark tool that encompasses open-ended multimodal queries requiring in-depth expert-level knowledge to solve. It includes 10 task domains and 56 subdomains, supports 17 languages, and accommodates up to 13 rounds of dialogue.

创建时间：

2025-02-17

原始信息汇总

ProBench数据集概述

数据集简介

ProBench是一个针对开放性问题解决的多模态基准测试，它包含需要密集专家级知识才能解决的开放性多模态查询。该数据集涵盖了10个任务领域和56个子领域，支持17种语言，并支持最多13轮的对话。

数据集特点

开放性多模态专家任务
包含10个任务领域和56个子领域
支持多达17种语言
支持最多13轮对话

使用说明

安装方式： shell git clone https://github.com/Yan98/ProBench_eval cd ProBench_eval pip install -e .
评估模型：
- 生成多模态大语言模型（MLLM）输出： shell python3 gen_answer_vllm.py --model Pixtral-12B-2409 --save-name Pixtral
- 运行评估： shell export base_url=YOUR_BASE_URL export api_key=YOUR_API_KEY python3 gen_judgement.py --model Pixtral-12B-2409 --model-answer-file output/Pixtral.jsonl --judge_model gpt-4o-2024-08-06 --num_workers 64
- 显示结果： shell for track in singleround multi-round multi-linguistic do python3 show_result.py --model Pixtral-12B-2409 --model-answer-file output/Pixtral.jsonl --judgement-file output/Pixtral --track $track done

联系方式

如有任何查询，请联系yan.yang@anu.edu.au。

版权

该数据集遵循CC-BY-NC-SA 4.0许可证，仅限非商业用途。

引用

bibtex @misc{yang2025probenchjudgingmultimodalfoundation, title={ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks}, author={Yan Yang and Dongxu Li and Haoning Wu and Bei Chen and Liu Liu and Liyuan Pan and Junnan Li}, year={2025}, eprint={2503.06885}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.06885}, }

搜集汇总

数据集介绍

构建方式

ProBench数据集的构建旨在评估多模态大型语言模型在开放式多领域专家任务上的表现。该数据集通过搜集和设计包含丰富专家级知识的开放性问题，涵盖了10个任务领域及其56个子领域，并支持多达13轮的对话交流，以全面考察模型在多模态交互中的理解和生成能力。

特点

ProBench数据集的特点在于其开放性、多模态和跨领域的特性。它不仅包含多种语言的问题，还要求模型在处理图像和文本信息时展现出深入的专业知识。此外，数据集支持的评价指标多样化，能够从多个维度对模型的表现进行细致评估。

使用方法

使用ProBench数据集进行模型评估时，用户需首先安装相应的评估工具，并根据提供的示例对模型进行定制化。通过生成模型输出、运行评判和显示结果等步骤，用户可以对自己的模型在不同任务领域和挑战难度上的表现进行量化分析。数据集还提供了丰富的配置选项，以支持用户根据具体需求调整评估过程。

背景与挑战

背景概述

ProBench数据集，旨在评估多模态大型语言模型在开放性多领域专家任务上的表现，是通向通用智能的关键里程碑。该数据集由Yan Yang、Dongxu Li、Haoning Wu、Bei Chen、Liu Liu、Liyuan Pan和Junnan Li等研究人员创建，并于2025年发布。ProBench涵盖了10个任务领域和56个子领域，支持17种语言，并能够进行多达13轮的对话。该数据集的构建，为多模态人工智能的研究与评估提供了重要资源，对相关领域产生了显著影响。

当前挑战

在研究领域问题上，ProBench面临的挑战包括如何精确评估多模态大型语言模型在开放性专家任务上的表现。在构建过程中，挑战主要体现在数据集的多样性和复杂性上，包括任务领域的广泛覆盖、多语言支持以及对话轮次的灵活性等方面。这些挑战要求研究者在数据集设计时充分考虑模型的泛化能力、语言理解和图像处理等多模态交互能力。

常用场景

经典使用场景

ProBench数据集针对开放式的多模态专家任务，提供了丰富的多领域专家级多模态查询。该数据集在多模态大型语言模型（MLLMs）的评价方面具有里程碑意义，其经典使用场景主要在于对MLLMs在处理开放性问题时的性能进行评估，从而推动多模态人工智能的发展。

实际应用

在实际应用中，ProBench可被用于评估和筛选在多模态交互、智能问答等领域表现卓越的人工智能模型，有助于提升智能系统的实际应用能力，满足用户在复杂场景下的需求。

衍生相关工作

基于ProBench数据集，研究者们已经衍生出一系列相关工作，包括对现有模型的性能比较、新型多模态模型的设计与实现，以及针对特定领域任务的定制化模型开发，进一步推动了多模态人工智能领域的研究与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集