K-MMBench
收藏魔搭社区2025-12-05 更新2025-07-26 收录
下载链接:
https://modelscope.cn/datasets/NCSOFT/K-MMBench
下载链接
链接失效反馈官方服务:
资源简介:
# K-MMBench
We introduce **K-MMBench**, a Korean adaptation of the [MMBench](https://arxiv.org/abs/2307.06281) [1] designed for evaluating vision-language models.
By translating the ```dev``` subset of MMBench into Korean and carefully reviewing its naturalness through human inspection, we developed a novel robust evaluation benchmark specifically for Korean language.
K-MMBench consists of questions across 20 evaluation dimensions, such as identity reasoning, image emotion, and attribute recognition, allowing a thorough evaluation of model performance in Korean.
To ensure a fair evaluation, we adopt the ***CircularEval Strategy*** as proposed by the MMBench benchmark [1]. For detailed information, please refer to Section 4.3 of the corresponding [paper](https://arxiv.org/abs/2307.06281).
For more details, Please refer to the VARCO-VISION technical report.
- **Technical Report:** [VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models](https://arxiv.org/pdf/2411.19103)
- **Blog(Korean):** [VARCO-VISION Technical Report Summary](https://ncsoft.github.io/ncresearch/95ad8712e60063e9ac97538504ac3eea0ac530af)
- **Huggingface Version Model:** [NCSOFT/VARCO-VISION-14B-HF](https://huggingface.co/NCSOFT/VARCO-VISION-14B-HF)
- **Evaluation Repository:** [lmms-eval](https://github.com/EvolvingLMMs-Lab/lmms-eval)
<table>
<tr>
<th>Image</th>
<th>MMBench</th>
<th>K-MMBench</th>
</tr>
<tr>
<td width=200><img src="https://cdn-uploads.huggingface.co/production/uploads/624ceaa38746b2f5773c2d1c/lWr_73pFC5dKbFI0xzGgB.jpeg"></td>
<td>
<strong>hint:</strong> The passage below describes an experiment. Read the passage and then follow the instructions below. Madelyn applied a thin layer of wax to the underside of her snowboard and rode the board straight down a hill. Then, she removed the wax and rode the snowboard straight down the hill again. She repeated the rides four more times, alternating whether she rode with a thin layer of wax on the board or not. Her friend Tucker timed each ride. Madelyn and Tucker calculated the average time it took to slide straight down the hill on the snowboard with wax compared to the average time on the snowboard without wax. Figure: snowboarding down a hill.
<br>
<strong>question:</strong> Identify the question that Madelyn and Tucker's experiment can best answer.
<br>
<strong>A:</strong> Does Madelyn's snowboard slide down a hill in less time when it has a thin layer of wax or a thick layer of wax?
<br>
<strong>B:</strong> Does Madelyn's snowboard slide down a hill in less time when it has a layer of wax or when it does not have a layer of wax?
</td>
<td>
<strong>hint:</strong> 아래의 문단은 한 실험을 설명하고 있습니다. 문단을 읽고 아래의 지시사항을 따르세요. 매들린은 스노보드의 아랫면에 얇은 왁스층을 바르고 언덕을 직선으로 내려갔습니다. 그런 다음, 그녀는 왁스를 제거하고 다시 스노보드를 언덕을 직선으로 내려갔습니다. 그녀는 스노보드에 얇은 왁스층을 바르고 타는지 아닌지를 번갈아 가며 네 번 더 탔습니다. 그녀의 친구 터커는 각각의 타기를 시간을 재었습니다. 매들린과 터커는 왁스를 바른 스노보드로 언덕을 직선으로 내려가는데 걸리는 평균 시간을 왁스를 바르지 않은 스노보드로 언덕을 내려가는데 걸리는 평균 시간과 비교하여 계산하였습니다. 그림: 언덕을 내려가는 스노보딩.
<br>
<strong>question:</strong> 매들린과 터커의 실험이 가장 잘 대답할 수 있는 질문을 확인하세요.
<br>
<strong>A:</strong> 매들린의 스노보드는 얇은 왁스층이 있는 경우와 두꺼운 왁스층이 있는 경우 중 어느 경우에 언덕을 더 빨리 내려갈까요?
<br>
<strong>B:</strong> 매들린의 스노보드는 왁스층이 있는 경우와 없는 경우 중 어느 경우에 언덕을 더 빨리 내려갈까요?
</td>
</tr>
</table>
<br>
## Inference Prompt
- As mentioned earlier, we adopt the ***CircularEval Strategy*** as proposed by the MMBench benchmark [1]. For detailed information, please refer to Section 4.3 of the corresponding [paper](https://arxiv.org/abs/2307.06281).
```
<image>
힌트: {hint} [optional]
질문: {question}
Options:
A. {A}
B. {B}
C. {C} [optional]
D. {D} [optional]
주어진 선택지 중 해당 옵션의 문자로 바로 답하세요.
```
<br>
## Results
Below are the evaluation results of various vision-language models, including [VARCO-VISION-14B](https://huggingface.co/NCSOFT/VARCO-VISION-14B) on K-MMBench.
| | VARCO-VISION-14B | Pangea-7B | Pixtral-12B | Molmo-7B-D | Qwen2-VL-7B-Instruct | LLaVA-One-Vision-7B |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| K-MMBench | **82.21** | 71.64 | 57.47 | 63.83 | 78.26 | 76.28 |
<br>
## References
[1] Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, et al. Mmbench: Is your multi-modal model an all-around player? In European Conference on Computer Vision, pages 216–233. Springer, 2025.
<br>
## Citation
If you use K-MMBench in your research, please cite the following:
```bibtex
@misc{ju2024varcovisionexpandingfrontierskorean,
title={VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models},
author={Jeongho Ju and Daeyoung Kim and SunYoung Park and Youngjune Kim},
year={2024},
eprint={2411.19103},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.19103},
}
```
# K-MMBench基准数据集
我们提出**K-MMBench**,这是专为评估视觉语言模型(vision-language models)打造的[MMBench](https://arxiv.org/abs/2307.06281) [1]的韩语适配版本。
我们将MMBench的`dev`子集翻译为韩语,并通过人工审核确保其语言自然性,最终构建了一款专为韩语场景设计的全新鲁棒性评估基准。
K-MMBench涵盖20个评估维度的问题,包括身份推理、图像情感识别、属性识别等,可全面评估模型在韩语语境下的性能表现。
为保障评估的公平性,我们采用了MMBench基准[1]提出的**循环评估策略(CircularEval Strategy)**。详细信息请参阅对应论文[https://arxiv.org/abs/2307.06281](https://arxiv.org/abs/2307.06281)的4.3节。
更多细节请参阅VARCO-VISION技术报告。
- **技术报告**:[VARCO-VISION:拓展韩语视觉语言模型研究前沿](https://arxiv.org/pdf/2411.19103)
- **韩语博客**:[VARCO-VISION技术报告摘要](https://ncsoft.github.io/ncresearch/95ad8712e60063e9ac97538504ac3eea0ac530af)
- **Huggingface模型版本**:[NCSOFT/VARCO-VISION-14B-HF](https://huggingface.co/NCSOFT/VARCO-VISION-14B-HF)
- **评估代码仓库**:[lmms-eval](https://github.com/EvolvingLMMs-Lab/lmms-eval)
<table>
<tr>
<th>图像</th>
<th>MMBench</th>
<th>K-MMBench</th>
</tr>
<tr>
<td width=200><img src="https://cdn-uploads.huggingface.co/production/uploads/624ceaa38746b2f5773c2d1c/lWr_73pFC5dKbFI0xzGgB.jpeg"></td>
<td>
<strong>提示:</strong> 下文描述了一项实验。请阅读该段落并遵循以下指示。玛德琳在滑雪板底面涂抹了一层薄蜡,随后沿山坡直线滑行。随后她去除蜡层,再次沿山坡直线滑行。她交替使用涂蜡与未涂蜡的滑雪板,重复该滑行过程共四次。她的朋友塔克为每一次滑行计时。玛德琳与塔克对比计算了涂蜡滑雪板与未涂蜡滑雪板沿山坡直线下滑的平均耗时。图示:沿山坡下滑的滑雪运动。
<br>
<strong>问题:</strong> 请找出玛德琳与塔克的实验最能够回答的问题。
<br>
<strong>A:</strong> 玛德琳的滑雪板在涂抹薄蜡层还是厚蜡层时,沿山坡下滑的速度更快?
<br>
<strong>B:</strong> 玛德琳的滑雪板在涂抹蜡层还是未涂抹蜡层时,沿山坡下滑的速度更快?
</td>
<td>
<strong>提示:</strong> 아래의 문단은 한 실험을 설명하고 있습니다. 문단을 읽고 아래의 지시사항을 따르세요. 매들린은 스노보드의 아랫면에 얇은 왁스층을 바르고 언덕을 직선으로 내려갔습니다. 그런 다음, 그녀는 왁스를 제거하고 다시 스노보드를 언덕을 직선으로 내려갔습니다. 그녀는 스노보드에 얇은 왁스층을 바르고 타는지 아닌지를 번갈아 가며 네 번 더 탔습니다. 그녀의 친구 터커는 각각의 타기를 시간을 재었습니다. 매들린과 터커는 왁스를 바른 스노보드로 언덕을 직선으로 내려가는데 걸리는 평균 시간을 왁스를 바르지 않은 스노보드로 언덕을 내려가는데 걸리는 평균 시간과 비교하여 계산하였습니다. 그림: 언덕을 내려가는 스노보딩.
<br>
<strong>问题:</strong> 매들린과 터커의 실험이 가장 잘 대답할 수 있는 질문을 확인하세요.
<br>
<strong>A:</strong> 매들린의 스노보드는 얇은 왁스층이 있는 경우와 두꺼운 왁스층이 있는 경우 중 어느 경우에 언덕을 더 빨리 내려갈까요?
<br>
<strong>B:</strong> 매들린의 스노보드는 왁스층이 있는 경우와 없는 경우 중 어느 경우에 언덕을 더 빨리 내려갈까요?
</td>
</tr>
</table>
<br>
## 推理提示
- 如前所述,我们采用了MMBench基准[1]提出的**循环评估策略(CircularEval Strategy)**。详细信息请参阅对应论文[https://arxiv.org/abs/2307.06281](https://arxiv.org/abs/2307.06281)的4.3节。
<image>
힌트: {hint} [可选]
질문: {question}
选项:
A. {A}
B. {B}
C. {C} [可选]
D. {D} [可选]
请直接以所选选项对应的字母作答。
<br>
## 评估结果
以下为包括[VARCO-VISION-14B](https://huggingface.co/NCSOFT/VARCO-VISION-14B)在内的多款视觉语言模型在K-MMBench上的评估结果。
| | VARCO-VISION-14B | Pangea-7B | Pixtral-12B | Molmo-7B-D | Qwen2-VL-7B-Instruct | LLaVA-One-Vision-7B |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| K-MMBench | **82.21** | 71.64 | 57.47 | 63.83 | 78.26 | 76.28 |
<br>
## 参考文献
[1] 刘元, 段浩东, 张元翰, 李博, 张松阳, 赵王博, 袁一可, 王家琦, 何聪辉, 刘子薇, 等. MMBench:你的多模态模型是否全能选手?// 欧洲计算机视觉会议, 2025: 216–233. Springer出版社.
<br>
## 引用格式
若您在研究中使用K-MMBench,请引用以下文献:
bibtex
@misc{ju2024varcovisionexpandingfrontierskorean,
title={VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models},
author={Jeongho Ju and Daeyoung Kim and SunYoung Park and Youngjune Kim},
year={2024},
eprint={2411.19103},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.19103},
}
提供机构:
maas
创建时间:
2025-07-24



