K-MMStar

Hugging Face2024-12-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/NCSOFT/K-MMStar

下载链接

链接失效反馈

官方服务：

资源简介：

K-MMStar是一个用于评估视觉语言模型的韩语数据集。它是MMStar数据集的韩语改编版本，通过将MMStar的val子集翻译成韩语并进行人工审查，确保了其自然性。数据集包含多个特征，如问题、图像、答案、类别等，并分为多个评估维度，如粗略感知、细粒度感知和实例推理。数据集的目的是为了全面评估模型在韩语环境下的性能。

创建时间：

2024-11-26

原始信息汇总

K-MMStar 数据集概述

基本信息

语言: 韩语 (ko)
许可证: CC BY-NC 4.0
配置:
- 名称: default
- 数据文件:
  - 分割: val
  - 路径: data/val-*

数据集结构

特征:
- index: 类型为 int64
- question: 类型为 string
- image: 类型为 image
- answer: 类型为 string
- category: 类型为 string
- l2_category: 类型为 string
- meta_info: 类型为 string
分割:
- 名称: val
- 字节数: 45162575.0
- 样本数: 1500
下载大小: 42027023
数据集大小: 45162575.0

数据集描述

K-MMStar 是 MMStar 数据集的韩语改编版本，专门用于评估视觉-语言模型的性能。该数据集通过将 MMStar 的 val 子集翻译成韩语，并通过人工检查确保其自然性，从而开发出一种新的韩语评估基准。数据集包含跨越 6 个评估维度的问答，如粗略感知、细粒度感知和实例推理，允许对模型在韩语中的表现进行全面评估。

引用

如果使用 K-MMStar 数据集进行研究，请引用以下内容： bibtex @misc{ju2024varcovisionexpandingfrontierskorean, title={VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models}, author={Jeongho Ju and Daeyoung Kim and SunYoung Park and Youngjune Kim}, year={2024}, eprint={2411.19103}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.19103}, }

搜集汇总

数据集介绍

构建方式

K-MMStar数据集的构建基于对MMStar数据集的韩语翻译与优化。研究团队将MMStar的验证子集翻译为韩语，并通过人工审查确保其自然性和准确性。针对原数据集中存在的不可回答问题（如需要多张图片才能回答的问题或模糊的选项），团队进行了修改或重新设计，确保每个问题都能在单张图片的范围内得到解答。这一过程不仅保留了原数据集的多维度评估特性，还增强了其在韩语环境下的适用性。

使用方法

K-MMStar数据集主要用于评估视觉-语言模型在韩语环境下的性能。用户可以通过加载数据集中的验证子集，利用其中的问题、图像和答案进行模型训练和测试。数据集提供了清晰的推理提示格式，用户只需输入问题即可进行模型推理。通过对比不同模型的评估结果，用户可以深入了解模型在韩语视觉-语言任务中的表现，并进行针对性的优化。

背景与挑战

背景概述

K-MMStar数据集是由韩国研究人员基于MMStar数据集开发的韩语视觉-语言评估基准。该数据集的创建旨在为韩国语言的视觉-语言模型提供一个稳健的评估框架。通过将MMStar的验证子集翻译成韩语，并经过人工审查以确保其自然性，K-MMStar不仅保留了原始数据集的多维度评估特性，还针对韩语环境进行了优化。该数据集涵盖了粗略感知、细粒度感知和实例推理等多个评估维度，旨在全面评估模型在韩语环境下的表现。K-MMStar的推出标志着韩国在视觉-语言模型评估领域的进一步发展，为相关研究提供了新的工具和视角。

当前挑战

K-MMStar数据集在构建过程中面临多项挑战。首先，翻译过程中需要确保韩语表达的自然性和准确性，以避免因语言差异导致的评估偏差。其次，原始MMStar数据集中存在一些无法回答的问题，例如需要多张图片才能回答的问题或模糊的选项，这些问题在韩语版本中需要重新设计或修改，以确保每个问题都能在单张图片的范围内得到解答。此外，如何在韩语环境中保持与原始数据集相同的评估维度，同时确保数据集的多样性和代表性，也是一项重要的挑战。这些挑战不仅涉及语言转换的技术问题，还包括对韩语语境和文化的深入理解。

常用场景

经典使用场景

K-MMStar数据集的经典使用场景主要集中在视觉-语言模型的评估与优化。通过提供多维度的问题，如粗略感知、细粒度感知和实例推理，该数据集能够全面评估模型在处理韩语视觉-语言任务时的表现。研究者可以利用K-MMStar对模型进行细致的性能分析，从而发现并改进模型在特定任务上的不足。

解决学术问题

K-MMStar数据集解决了在视觉-语言模型评估中常见的多图像依赖、模糊问题和单图像回答限制等学术问题。通过精心设计和人工审查，确保每个问题都能在单张图像的范围内得到解答，从而提高了评估的准确性和可靠性。这一改进对于推动视觉-语言模型在韩语环境下的研究具有重要意义，并为相关领域的研究提供了更为严谨的基准。

实际应用

K-MMStar数据集在实际应用中主要用于开发和测试面向韩语用户的视觉-语言交互系统。例如，在智能客服、图像搜索和教育辅助工具等领域，该数据集可以用于评估和优化系统在处理复杂视觉-语言任务时的表现。通过使用K-MMStar，开发者能够确保其系统在韩语环境下的准确性和鲁棒性，从而提升用户体验。

数据集最近研究