KO-VQA-Benchmark

github2025-07-14 更新2025-07-16 收录

下载链接：

https://github.com/Marker-Inc-Korea/KO-VQA-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

KO-VQA-Benchmark是一个基于AIHUB 시각화자료질의응답 데이터셋（AIHUB可视化资料问答数据集）构建的韩语视觉语言模型（VLM）基准数据集。该数据集旨在评估VLM模型在理解和回答基于韩语文档的问题方面的能力，包括对文档内容的理解、推理和查找答案的能力。数据集包含15个不同领域的文档，每个领域随机抽取100个问题，共1500个VQA基准问题。

The KO-VQA-Benchmark is a benchmark dataset for Korean Visual Language Models (VLM) constructed based on the AIHUB 시각화자료질의응답 dataset (AIHUB Visual Material Question-Answer dataset). The dataset is designed to evaluate the capability of VLM models in understanding and answering questions based on Korean documents, encompassing their abilities in comprehending document content, reasoning, and locating answers. The dataset includes documents from 15 different domains, with 100 questions randomly selected from each domain, totaling 1500 VQA benchmark questions.

创建时间：

2025-07-02

原始信息汇总

KO-VQA-Benchmark数据集概述

数据集简介

目的：评估韩国语视觉语言模型(VLM)在文档理解与问答任务中的性能
基础数据：基于AIhub提供的"시각화질의응답 데이터셋"（可视化质疑问答数据集）
特点：
- 专注于文档内图表、图形、表格等视觉资料的问答理解
- 包含15个不同领域的文档
- 现实性：使用真实韩国语文档
- 多样性：覆盖多领域内容

数据集构成

规模：1,500个问答对（每个领域随机选取100个问题）
领域分布：
- 公共行政、科学技术、教育、交通物流、国土管理
- 农畜水产、文化旅游、保健医疗、社会福利
- 产业就业、食品健康、灾难安全、财政金融
- 统一外交安保、环境气象

评估方法

评估重点：
- 基于文档的问答准确性
- 数字和单位的正确表达
- 回答与文档内容的一致性
评估标准：
- 使用正则表达式提取"数字+单位"进行比对
- 严格匹配格式要求
提示模板：包含标准化回答格式要求

性能基准

模型	准确率(%)
Qwen2.5-VL-32B-Instruct	60.48
Qwen2.5-VL-7B-Instruct	53.27
VARCO-VISION-14B-HF	43.67
Gukbap-Ovis2-16B	34.80
Ovis2-16B	34.20
gemma-3-27b-it	34.20
Gukbap-Gemma3-27B-VL	33.60
Ovis2-34B	32.50
Gukbap-Ovis2-34B	31.93
gemma-3-12b-it	28.73
Bllossom-AICA-5B	20.67

数据样例

公共行政

问题：<image> 2019年农田农业机械化率比1996年增加了多少？答案：增加了21.9%

农畜水产

问题：<image> 2020年公共机构投资目标是多少兆韩元？答案：61.5兆韩元

使用限制

完整数据集因版权问题不公开
提供部分样例数据供参考

技术支持

韩国产业技术振兴院(KIAT)资助
韩国贸易工业和能源部(MOTIE)支持项目

搜集汇总

数据集介绍

构建方式

KO-VQA-Benchmark数据集的构建基于AIhub提供的시각화질의응답 데이터셋，该数据集专注于文档内视觉材料（如图表、图形、图解等）的理解与问答。构建过程中，研究团队从原始数据中筛选了Validation部分，并利用PDF图像及15个不同领域的JSON文件进行标注。每个领域随机抽取100个问题，最终形成包含1,500个样本的基准数据集，涵盖公共行政、科学技术、教育等多个领域。

使用方法

使用KO-VQA-Benchmark时，需通过特定提示词引导视觉语言模型（VLM）生成符合格式要求的答案，例如明确要求模型在回答中包含数字和单位。评估过程采用正则表达式提取模型输出和标准答案中的数字及单位，严格比对两者的一致性以判定正误。用户可通过提供的评估脚本快速测试模型性能，脚本支持多种主流VLM模型的集成，便于研究者进行基准测试和模型优化。

背景与挑战

背景概述

KO-VQA-Benchmark数据集由Marker-Inc-Korea团队开发，旨在填补韩国语视觉语言模型（VLM）评估数据集的空白。该数据集基于AIhub提供的视觉问答数据，专注于文档内图表、图形、图解等视觉材料的理解与问答能力评估。数据集涵盖15个不同领域的文档，包括公共行政、科学技术、教育等，共计1,500个问题实例。其核心研究问题在于提升韩国语VLM模型对视觉文档的理解能力及问答准确性，为相关领域的研究提供了重要的基准工具。

当前挑战

KO-VQA-Benchmark数据集面临多重挑战。在领域问题方面，视觉文档的多样性和复杂性使得模型需具备跨领域理解能力，尤其是在处理数字、单位等细节信息时需高度精确。构建过程中的挑战包括数据采集与标注的复杂性，需确保视觉文档与问答对的高质量对齐；同时，数据版权问题限制了部分数据的公开共享。此外，评估过程中需精确匹配模型输出与标准答案的数字及单位，这对评估方法的鲁棒性提出了较高要求。

常用场景

经典使用场景

在视觉文档理解领域，KO-VQA-Benchmark数据集被广泛用于评估视觉语言模型（VLM）对韩语文档中图表、图形和示意图的理解能力。该数据集通过提供多样化的视觉材料和相关问题，帮助研究人员测试模型在跨模态理解方面的表现，特别是在处理复杂视觉信息时的准确性和鲁棒性。

解决学术问题

KO-VQA-Benchmark解决了韩语视觉语言模型评估数据稀缺的问题，为研究社区提供了一个标准化的测试平台。通过涵盖15个不同领域的文档，该数据集不仅提升了模型在多样化场景下的泛化能力，还为研究跨模态对齐和视觉推理提供了重要支持，推动了韩语自然语言处理技术的发展。

实际应用

在实际应用中，KO-VQA-Benchmark数据集被用于开发和优化韩语视觉问答系统，例如在公共行政、医疗保健和金融等领域。这些系统能够自动解析文档中的视觉信息并回答相关问题，显著提高了信息检索的效率和准确性，为企业和政府机构提供了强大的工具支持。

数据集最近研究