ProBench
收藏ProBench数据集概述
数据集简介
ProBench是一个针对开放性问题解决的多模态基准测试,它包含需要密集专家级知识才能解决的开放性多模态查询。该数据集涵盖了10个任务领域和56个子领域,支持17种语言,并支持最多13轮的对话。
数据集特点
- 开放性多模态专家任务
- 包含10个任务领域和56个子领域
- 支持多达17种语言
- 支持最多13轮对话
使用说明
-
安装方式: shell git clone https://github.com/Yan98/ProBench_eval cd ProBench_eval pip install -e .
-
评估模型:
-
生成多模态大语言模型(MLLM)输出: shell python3 gen_answer_vllm.py --model Pixtral-12B-2409 --save-name Pixtral
-
运行评估: shell export base_url=YOUR_BASE_URL export api_key=YOUR_API_KEY python3 gen_judgement.py --model Pixtral-12B-2409 --model-answer-file output/Pixtral.jsonl --judge_model gpt-4o-2024-08-06 --num_workers 64
-
显示结果: shell for track in singleround multi-round multi-linguistic do python3 show_result.py --model Pixtral-12B-2409 --model-answer-file output/Pixtral.jsonl --judgement-file output/Pixtral --track $track done
-
联系方式
如有任何查询,请联系yan.yang@anu.edu.au。
版权
该数据集遵循CC-BY-NC-SA 4.0许可证,仅限非商业用途。
引用
bibtex @misc{yang2025probenchjudgingmultimodalfoundation, title={ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks}, author={Yan Yang and Dongxu Li and Haoning Wu and Bei Chen and Liu Liu and Liyuan Pan and Junnan Li}, year={2025}, eprint={2503.06885}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.06885}, }




