PerVL-Bench

github2025-11-12 更新2025-11-13 收录

下载链接：

https://github.com/MSungK/PerVL-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

PerVL-Bench是一个专门为评估大型视觉语言模型个性化能力而设计的合成基准数据集。它包含用户特定数据，包括多张图像和长文本信息，并提供两种类型的问答对。该数据集基于YoLLaVA和MC-LLaVA数据集构建，用于系统评估当前最先进LVLMs在个性化方面的基本能力。

PerVL-Bench is a synthetic benchmark dataset specifically designed for evaluating the personalized capabilities of large vision-language models. It contains user-specific data, including multiple images and long-form text information, and provides two types of question-answer pairs. This dataset is constructed based on the YoLLaVA and MC-LLaVA datasets, and is used to systematically evaluate the fundamental personalized capabilities of current state-of-the-art LVLMs.

创建时间：

2025-11-11

原始信息汇总

PerVL-Bench 数据集概述

数据集简介

PerVL-Bench 是一个专门为评估大型视觉语言模型个性化能力而设计的合成基准数据集。该数据集通过整合用户特定数据来系统评估LVLMs在多模态个性化任务中的表现。

数据集特点

数据类型：包含用户特定数据，涵盖多张图像和长文本信息
问答类型：提供两种不同类型的问答对
设计目的：专门用于评估大型视觉语言模型的个性化能力

数据集结构

. ├── assets ├── data │ ├── benchmark │ ├── database │ ├── query_images │ └── vp_images ├── main_results ├── scripts └── src

数据获取

数据集可通过以下链接下载： https://drive.google.com/file/d/1iITRrs_CICwCiB9p3fEun0xLTMqU0-Ri/view?usp=drive_link

评估方法

文本提示问答评估：使用文本提示进行问答推理和评估
多模态提示问答评估：结合多模态信息进行问答推理，需要额外的LLM-as-a-Judge流程

许可证

本数据集采用MIT许可证发布，允许自由使用、修改和分发。

致谢

本数据集基于YoLLaVA和MC-LLaVA数据集构建。

搜集汇总

数据集介绍

构建方式

在个性化多模态学习研究领域，PerVL-Bench通过合成数据构建方法建立了标准化评估基准。该数据集整合了用户专属的多图像样本与长文本信息，构建过程采用结构化数据采集策略，涵盖视觉与文本模态的深度关联。其数据库架构包含基准测试集、查询图像库和视觉提示图像集，通过程序化生成流程确保数据的一致性与可复现性。数据集构建借鉴了Yo’LLaVA和MC-LLaVA等前沿工作的技术路径，采用模块化设计理念实现多源数据的系统集成。

特点

作为专为大型视觉语言模型设计的个性化评估基准，PerVL-Bench展现出鲜明的技术特色。数据集包含两种异构问答对类型，既支持纯文本提示的推理任务，也涵盖多模态提示的复杂交互场景。其用户数据模拟真实应用环境，融合跨模态长文本与多图像序列，为模型个性化能力评估提供多维测试维度。数据组织采用分层存储结构，通过标准化文件体系保障数据访问效率，同时保持与主流模型API的兼容性。

使用方法

针对不同技术架构的视觉语言模型，该数据集提供灵活的评估方案。用户可通过API调用方式对GPT、Gemini等云端模型进行多进程推理，亦可基于HuggingFace框架本地部署Qwen系列模型。评估流程涵盖文本提示问答与多模态提示问答双路径，其中多模态任务引入LLM-as-a-Judge机制确保评分客观性。实施过程配备结果聚合脚本与标准化评分模块，支持研究者通过命令行工具快速完成模型性能量化分析。

背景与挑战

背景概述

随着人工智能向用户中心化领域深入发展，个性化技术通过整合用户专属数据生成定制化响应，已成为提升智能系统交互体验的关键路径。PerVL-Bench由研究团队于2024年推出，旨在系统评估大型视觉语言模型在多模态个性化任务中的表现。该数据集通过合成用户专属的图像与长文本数据，构建了包含两类问答对的标准测试环境，填补了现有研究对视觉语言模型个性化能力量化评估的空白，为推进自适应人机交互技术提供了重要基准。

当前挑战

在解决多模态个性化问题的过程中，模型需克服用户数据异构性融合、长上下文语义关联等核心难题。数据集构建阶段面临合成数据真实性验证、多模态对齐标注一致性等挑战，其设计需确保用户画像的完整性与任务场景的多样性，同时维持评估指标对细粒度个性化能力的敏感度，这些因素共同构成了当前个性化视觉语言技术发展的关键瓶颈。

常用场景

经典使用场景

在个性化人工智能领域，PerVL-Bench作为首个专注于大视觉语言模型多模态个性化能力的基准测试集，通过合成数据模拟真实用户场景，整合多图像与长文本信息，为模型评估提供标准化框架。该数据集支持文本提示与多模态提示两种问答类型，能够系统检验模型在复杂用户数据下的理解与生成能力，成为研究者在开发个性化视觉语言系统时的核心验证工具。

解决学术问题

该数据集有效解决了大视觉语言模型在个性化任务中缺乏系统评估标准的学术困境。通过构建包含用户专属数据的结构化测试环境，研究者能够量化模型对个性化信息的理解深度与响应准确性，揭示现有模型在跨模态对齐、长期记忆建模等关键能力上的局限，为突破模型个性化瓶颈提供实证依据，推动多模态人工智能向更精准的个性化服务方向发展。

衍生相关工作

该数据集催生了多模态个性化研究的新方向，基于其构建的评估体系已衍生出Yo’LLaVA与MC-LLaVA等经典工作。这些研究通过改进模型架构与训练策略，显著提升了对用户特定偏好的捕捉能力，后续工作进一步探索了动态记忆机制与跨模态注意力融合技术，为构建具备持续学习能力的个性化视觉语言系统奠定理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集