lmarena-ai/vision-arena-bench-v0.1

Name: lmarena-ai/vision-arena-bench-v0.1
Creator: lmarena-ai
Published: 2024-12-19 01:43:15
License: 暂无描述

Hugging Face2024-12-19 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/lmarena-ai/vision-arena-bench-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

VisionArena-Bench是一个包含500个不同用户提示的自动评估基准，可以用来低成本地近似[Chatbot Arena]模型排名，通过使用VLM作为裁判进行自动评估。数据集包含问题ID、问题主题聚类名称、对话轮次内容和对应的单张图片列表。这个数据集主要用于视觉问答任务，并且其大小在100到1000个示例之间。

VisionArena-Bench is an automatic benchmark of 500 diverse user prompts that can be used to cheaply approximate Chatbot Arena model rankings via automatic benchmarking with VLM as a judge. The dataset includes question ID, cluster name of the topic, content of the dialogue turns, and a list of one single image corresponding to the question. This dataset is primarily used for visual question answering tasks, and its size ranges between 100 and 1,000 examples.

提供机构：

lmarena-ai

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，VisionArena-Bench数据集的构建体现了严谨的学术范式。该数据集源自真实世界用户与视觉语言模型的对话记录，通过系统性的采集与整理流程，形成了包含500个多样化用户提示的基准集合。其构建核心在于从海量实际交互中筛选具有代表性的多轮对话，并确保每个样本均包含唯一的视觉问题与对应图像，从而为自动化评估提供结构化的数据基础。

特点

该数据集的特点在于其高度的现实性与多样性，旨在精准模拟人类偏好而非单纯追求事实准确性。样本内容广泛涵盖科学、技术、工程、数学等STEM领域问题、光学字符识别任务以及通用图像描述任务，呈现了用户与模型交互的复杂场景。每个数据点均以多轮对话形式组织，并严格关联单张图像，这种设计使得评估能够深入考察模型在结合视觉与语言信息时的综合表现与用户满意度。

使用方法

在应用层面，VisionArena-Bench数据集主要用于构建自动化的模型偏好排序评估流程。研究者可借助该数据集，以视觉语言模型作为评判者，对目标模型进行批量测试，从而经济高效地近似Chatbot Arena的人类偏好排名。使用时应遵循其开源代码框架，将模型输出与数据集中的问题及图像进行匹配，并通过预设的评判机制生成偏好分数与排名，以此评估模型在真实对话场景中的性能与用户接受度。

背景与挑战

背景概述

视觉语言模型评估领域长期面临人工标注成本高昂与偏好对齐效率低下的双重困境。2024年，由加州大学伯克利分校等机构的研究团队联合发布了VisionArena-Bench数据集，其核心研究目标在于构建自动化评估管道，通过视觉问答任务模拟人类对多模态对话系统的偏好排序。该数据集源自真实用户与视觉语言模型的交互记录，旨在为模型性能评估提供高效、可扩展的基准测试工具，推动多模态人工智能系统向更符合人类价值观的方向演进。

当前挑战

该数据集致力于解决视觉语言模型在复杂场景下人类偏好对齐的评估难题，其挑战体现在语义理解深度、跨模态推理一致性以及文化背景适应性等方面。构建过程中面临数据多样性平衡的挑战，现有样本在STEM领域过度集中，而艺术、社科等专业领域覆盖不足；同时需处理用户生成内容中的敏感信息过滤与隐私保护问题，这对数据清洗与标注流程提出了极高要求。

常用场景

经典使用场景

在视觉语言模型评估领域，VisionArena-Bench数据集通过500个多样化的用户提示构建了一个自动评估框架，其核心应用场景在于模拟人类偏好排序。该数据集整合了单图像与文本对话轮次，能够系统性地测试模型在STEM问题、OCR任务及图像描述等复杂情境下的综合表现，为研究者提供了一个高效且可重复的基准测试环境，用以衡量不同视觉语言模型在真实世界交互中的相对优劣。

衍生相关工作

基于VisionArena-Bench的评估范式，学术界衍生出一系列围绕视觉语言模型偏好对齐的经典研究。例如，相关工作深入探索了使用大型视觉语言模型作为自动评判员的可靠性，并发展了更精细的偏好建模方法。这些研究不仅扩展了数据集的原始设计意图，还促进了多模态评估标准的发展，为构建更安全、更符合人类价值观的视觉对话系统奠定了理论基础。

数据集最近研究