KOFFVQA

Name: KOFFVQA
Creator: MAUM AI Inc. / Republic of Korea
Published: 2025-03-31 13:04:25
License: 暂无描述

arXiv2025-03-31 更新2025-04-03 收录

下载链接：

https://github.com/maum-ai/KOFFVQA

下载链接

链接失效反馈

官方服务：

资源简介：

KOFFVQA是一个由MAUM AI Inc.创建的韩语视觉问答基准数据集，旨在客观评估大型视觉语言模型(VLMs)的自由形式响应。该数据集包含275个经过精心设计的韩语问题，每个问题都与一张图像和一组预定义的评分标准配对，涵盖10个不同的性能方面。这些问题旨在评估VLMs在感知、推理以及安全性和偏见等多个方面的能力。数据集适用于评估各种与真实世界应用相关的VLM性能，可通过提供的评分标准，使用小型开源模型可靠地评估模型性能。

KOFFVQA is a Korean visual question answering (VQA) benchmark dataset created by MAUM AI Inc., designed to objectively evaluate the free-form response capabilities of large vision-language models (VLMs). This dataset includes 275 meticulously crafted Korean questions, each paired with an image and a predefined set of scoring criteria, covering 10 distinct performance dimensions. These questions aim to assess VLMs’ capabilities across multiple aspects including perception, reasoning, as well as safety and bias. The dataset is suitable for evaluating VLM performance relevant to various real-world applications, and model performance can be reliably assessed using small open-source models with the provided scoring criteria.

提供机构：

MAUM AI Inc. / Republic of Korea

创建时间：

2025-03-31

原始信息汇总

KOFFVQA数据集概述

数据集基本信息

名称：KOFFVQA
语言：韩语
问题数量：275个
任务类型：10种不同的视觉问答(VQA)任务
数据组成：每个问题包含图像、对应问题和回答的客观评分标准列表

数据集特点

评估方式：利用LLM法官根据给定标准对VLM生成的回答进行评分
任务设计：覆盖VLM在现实应用中尽可能多的性能方面
评分标准：提供客观评分标准，避免依赖主观指标

数据集用途

主要用途：评估视觉语言模型(VLM)在韩语视觉问答任务中的表现
评估流程：
1. 使用VLM生成每个问题的回答
2. 使用LLM法官根据评分标准对回答进行评分

支持模型

API模型：
- OpenAI：gpt-4o, gpt-4o-mini, gpt-4-turbo
- Gemini：gemini-1.5-flash, gemini-1.5-flash-8b, gemini-1.5-pro, gemini-1.0-pro
- Claude：claude-3-5-sonnet, claude-3-5-haiku, claude-3-opus, claude-3-sonnet, claude-3-haiku
本地/Huggingface模型：
- 支持多种架构，包括MllamaForConditionalGeneration、Qwen2VLForConditionalGeneration等

评估工具

生成脚本：generate.py
评分脚本：evaluate.py
默认评分模型：google/gemma-2-9b-it

搜集汇总

数据集介绍

构建方式

KOFFVQA数据集的构建过程体现了严谨的科学态度和精细的人工标注。研究团队从多个公开数据源精选图像素材，包括Open Images v7、KAIST Scene Text数据集以及韩国政府开放数据门户，确保图像覆盖10个不同子类别。针对每张图像，专业标注人员精心设计韩语问题并制定详细的评分标准，每条标准均附带部分得分权重。评分标准设计遵循严格原则：单一答案问题采用二元评分，多部分问题则根据重要性分配权重，确保评分客观性。数据集经过多轮人工筛选和模型测试迭代，最终形成包含275个高质量样本的基准测试集。这种构建方法既保证了数据的多样性，又确保了评估标准的可操作性。

特点

KOFFVQA作为韩语视觉问答领域的专业基准测试集，具有三个显著特征：首先，其创新性地采用预定义评分标准配合LLM评判的方法，解决了传统开放式评估主观性强的问题，即使小型开源模型也能实现可靠评估。其次，数据集涵盖感知、推理、安全与偏见三大类别共10个子类，特别包含韩国文化专属识别和韩文OCR等本土化测试维度，能全面评估模型在韩语环境下的多维度表现。最后，所有问题均采用自由回答形式，保留了大模型生成式能力的评估空间，同时通过语言过滤机制确保回答的韩语合规性，为韩语VLM研究提供了精准的评估工具。

使用方法

使用KOFFVQA进行模型评估需遵循标准化流程：首先将测试图像与对应韩语问题输入待测VLM模型，获取自由格式的回答。随后将回答与预定义的评分标准一起输入LLM评判模型（推荐使用Gemma 2 9B），评判模型根据标准对回答进行0-10分的客观评分。系统会自动检测回答语言，非韩语回答（除纯数字和特殊字符外）将得零分。最终通过计算各子类别及整体平均分（转换为百分制）来评估模型性能。该方法支持不同规模模型的横向比较，研究者还可通过分析子类别得分了解模型的优势与短板。评估代码已在GitHub开源，确保结果的可复现性。

背景与挑战

背景概述

KOFFVQA是由MAUM AI Inc.的研究人员Yoonshik Kim和Jaeyoon Jung于2025年提出的韩语自由形式视觉问答基准数据集。该数据集的诞生源于当前大视觉语言模型（VLMs）评估领域的两大痛点：现有基准或限制模型从预设答案中选择而牺牲开放性，或依赖评判模型导致主观性评估。针对韩语VLMs评估资源的匮乏，研究团队构建了包含275个精细标注的图像-问题对，覆盖感知、推理、安全与偏见等10个维度的性能评估。作为首个专注于韩语文化场景的通用VQA基准，KOFFVQA通过预定义客观评分标准，实现了对开源模型的可靠评估，填补了非英语VLM评估体系的空白。

当前挑战

KOFFVQA面临的挑战主要体现在评估范式和数据构建两个层面。在领域问题层面，自由形式回答的评估需要平衡开放性与客观性，传统方法难以避免评判模型的主观偏差，且韩语特有的文化元素（如韩文OCR、韩国文化符号识别）增加了跨语言模型的表现差异。数据构建过程中，研究团队需解决三大难题：设计覆盖多维度能力的评分标准体系，确保不同复杂度问题间的评分公平性；收集具有韩国文化代表性的图像数据；处理评判模型因视觉输入产生的幻觉问题。实验表明，即使采用相同的评分标准，提供图像输入会使GPT-4o等评判模型的评分一致性下降7.2%，凸显了视觉干扰对评估可靠性的影响。

常用场景

经典使用场景

在视觉-语言模型（VLM）的研究领域，KOFFVQA数据集作为首个针对韩语设计的开放式视觉问答基准，其经典应用场景聚焦于多模态模型的跨语言能力评估。该数据集通过精心设计的275个图像-问题对，覆盖物体属性识别、空间关系理解、文化特定内容认知等10个子类别，为研究者提供了系统化测试模型在韩语语境下感知与推理能力的标准化工具。尤其在处理韩文文本识别（KO-OCR）和文化特定视觉内容（Recognition-KO）等任务时，其细粒度的评分标准能有效衡量模型对韩国文化元素的深层理解。

衍生相关工作

该数据集推动了多语言VLM评估范式的创新，其客观评分机制启发了后续如Prometheus-vision等细粒度评估体系的发展。基于KOFFVQA发现的模型规模与韩语性能解耦现象，研究者提出了数据质量优于参数量的训练新方向。在韩语社区，其衍生出K-MMBench等翻译基准的优化版本，并与VARCO-VISION构成互补评估体系。数据集首创的'文化特定认知'评估维度，更被扩展至日语、阿拉伯语等低资源语言基准构建中，促进了多模态技术的文化适应性研究。

数据集最近研究