lmarena-ai/VisionArena-Chat

Name: lmarena-ai/VisionArena-Chat
Creator: lmarena-ai
Published: 2025-02-04 00:57:01
License: 暂无描述

Hugging Face2025-02-04 更新2025-02-15 收录

下载链接：

https://hf-mirror.com/datasets/lmarena-ai/VisionArena-Chat

下载链接

链接失效反馈

官方服务：

资源简介：

VisionArena-Battle是一个包含30K真实世界图像对话的数据集，用户与两个匿名VLM通过Chatbot Arena开源平台进行互动，提供了对响应的偏好投票。数据集涵盖了2024年2月至9月的时间段，包含多种语言的对话和约43k个独特图像。对话被标记为多个类别，如标题、OCR、实体识别、编码、作业、图表、幽默、创意写作和拒绝等。

VisionArena-Battle is a dataset containing 30K real-world image conversations between users and two anonymized VLMs collected through the open-source platform Chatbot Arena, with pairwise preference votes for responses. The dataset covers conversations in multiple languages and includes approximately 43k unique images, tagged with categories such as Captioning, OCR, Entity Recognition, Coding, Homework, Diagram, Humor, Creative Writing, and Refusal.

提供机构：

lmarena-ai

搜集汇总

数据集介绍

构建方式

在视觉语言模型蓬勃发展的背景下，VisionArena-Chat数据集通过开放平台Chatbot Arena精心构建。该平台允许用户与匿名视觉语言模型进行单轮或多轮对话，并收集用户对模型响应的偏好投票。数据采集周期覆盖2024年2月至9月，期间严格遵循用户知情同意原则。为确保数据质量与合规性，构建过程采用了多层级内容过滤机制，包括NSFW、CSAM检测，以及针对个人可识别信息和面部图像的自动化筛查，旨在最大限度移除不当内容，尽管系统并非完美无缺。

使用方法

该数据集主要服务于视觉语言模型的评估、对齐与偏好学习研究。使用者可通过HuggingFace平台加载数据集，其中图像以字节格式存储，需使用`Image.open(BytesIO(img["bytes"]))`进行解码。数据以训练集形式组织，研究者可依据`conversation`字段中的角色与内容序列重构对话流程，结合`categories`标签进行特定能力维度的分析。鉴于数据集可能包含未过滤彻底的不当内容，建议在使用前实施额外的安全审查。相关模型输出需遵守其原始使用条款，且不得尝试对匿名用户进行再识别。

背景与挑战

背景概述

视觉语言模型（VLM）作为多模态人工智能的核心分支，其评估与优化亟需大规模、高质量的真实世界交互数据。在此背景下，由加州大学伯克利分校等机构的研究团队于2024年创建的VisionArena-Chat数据集应运而生。该数据集通过开源平台Chatbot Arena收集了从2024年2月至9月间约20万轮用户与45个视觉语言模型之间的对话，涵盖138种语言及约4.3万张独特图像，并标注了包括图像描述、光学字符识别、实体识别、代码生成、作业解答、图表理解、幽默创作及内容拒绝在内的多类任务标签。其核心研究在于通过真实用户偏好投票，采用布拉德利-特里模型构建模型排行榜，为视觉语言模型的性能评估与对齐研究提供了关键基准，显著推动了开放、动态的多模态对话系统发展。

当前挑战

VisionArena-Chat数据集旨在解决视觉问答与多模态对话系统中模型评估与偏好对齐的复杂挑战，其构建面临多重困难。在领域问题层面，数据集需涵盖多样化的视觉场景与语言交互模式，以准确评估模型在跨文化语境、细粒度视觉推理及创造性任务中的泛化能力；同时，基于用户偏好构建可靠排名需克服投票噪声与主观偏差，确保评估的公正性与统计显著性。在构建过程中，挑战主要集中于数据安全与隐私保护：尽管采用了NSFW内容检测、CSAM过滤、个人身份信息识别及人脸检测等多重防护机制，但自动化工具的不完美性仍可能导致不当内容或敏感信息残留，需持续依赖人工审核与用户反馈进行清理，这增加了数据合规性与伦理风险管理的复杂度。

常用场景

经典使用场景

在视觉语言模型（VLM）的评估与比较领域，VisionArena-Chat数据集扮演着关键角色。该数据集汇集了来自真实用户的20万次对话交互，覆盖图像描述、光学字符识别、实体识别、代码生成、作业解答、图表理解、幽默创作及创意写作等多模态任务。研究人员通过分析这些对话，能够系统地评估不同VLM在开放域视觉问答中的表现，尤其关注模型在复杂多轮对话中的连贯性、准确性与创造性。数据集中的用户偏好投票进一步为模型性能提供了基于人类反馈的量化指标，成为基准测试的核心资源。

解决学术问题

该数据集有效应对了视觉语言模型领域长期存在的评估难题。传统评估往往依赖静态、人工构造的测试集，难以全面反映模型在真实、开放场景下的能力。VisionArena-Chat通过大规模真实用户对话，为研究社区提供了动态、多样化的评估基准，助力解决模型泛化性、多轮对话一致性、跨语言理解以及特定任务（如STEM问题解答）的性能量化问题。其引入的基于Bradley-Terry模型的偏好聚合方法，为模型排名提供了统计严谨的解决方案，推动了评估方法论的发展。

实际应用

在实际应用层面，VisionArena-Chat为开发更智能、更贴合用户需求的视觉对话系统提供了宝贵数据。企业可利用该数据集训练或微调VLM，以提升其在教育辅助（如作业解答）、内容创作（如图像描述与创意写作）、办公自动化（如文档图表理解）以及无障碍服务（如视觉信息提取）等场景下的实用性与用户体验。数据集涵盖的138种语言对话，也为构建全球化、多语言兼容的视觉助手奠定了数据基础，促进了技术的普惠化应用。

数据集最近研究