KRETA
收藏arXiv2025-08-31 更新2025-11-25 收录
下载链接:
https://hf-mirror.com/datasets/tabtoyou/KRETA
下载链接
链接失效反馈官方服务:
资源简介:
KRETA是一个针对韩语文本丰富的视觉问答(VQA)而设计的基准,旨在评估视觉语言模型(VLMs)在理解文本和推理方面的能力。该数据集包含2577个样本,涵盖了15个领域和26种图像类型,包括文档、场景文本和数字界面等。KRETA采用半自动化的VQA生成流程,确保数据质量,并通过双级推理框架评估VLMs在文本识别和推理方面的能力。该数据集填补了韩语文本丰富的VQA基准的空白,并为多语言VLM研究提供了重要的资源。
提供机构:
Waddle, Seoul National University, Krafton, UNIST, SK Telecom
创建时间:
2025-08-27
搜集汇总
数据集介绍

构建方式
在构建KRETA数据集的过程中,研究团队采用了一种半自动化的视觉问答生成流程,专门针对文本密集型的视觉场景进行了优化。该流程首先通过严格的图像筛选机制,确保所有图像在文本可读性和内容质量上达到标准,随后利用多个视觉语言模型并行提取图像中的文本与非文本元素,并通过融合输出以减少幻觉现象。基于结构化描述,系统进一步生成问题-答案候选对,并采用七项评估指标进行质量投票,最终通过人工精修确保数据集的准确性与逻辑一致性。
特点
KRETA数据集显著特点在于其全面覆盖了15个行业领域和26种图像类型,依据韩国标准产业分类体系进行系统化分类,确保了数据在真实应用场景中的代表性。数据集采用双层次认知框架,区分基础文本识别任务与高级推理任务,分别对应1,426个System 1样本和1,151个System 2样本。所有图像与问答对均源自韩语原生内容,充分体现了语言的文化特异性和语境真实性,为评估模型在复杂跨模态推理中的表现提供了丰富且具有挑战性的测试环境。
使用方法
KRETA数据集的使用旨在系统评估视觉语言模型在韩语文本密集型图像上的理解与推理能力。研究人员可通过提供的多领域图像及其对应问答对,分别测试模型在基础文本提取和高级跨模态推理任务上的表现。数据集支持多重分类维度,包括领域类别和图像类型,便于进行细粒度性能分析。同时,公开的生成流程与评估协议允许研究社区扩展应用于其他低资源语言,推动多语言视觉语言研究的进一步发展。
背景与挑战
背景概述
KRETA数据集于2025年由Waddle、首尔国立大学、Krafton、UNIST及SK Telecom等机构联合推出,聚焦于韩语文本丰富的视觉问答领域。该数据集针对低资源语言环境中视觉语言模型在跨模态理解与推理方面的不足,构建了涵盖15个领域和26种图像类型的评估框架,旨在推动韩语多模态研究的标准化进程。其创新性地引入双层次认知架构,区分基础文本识别与高级推理任务,为韩语自然场景下的图文交互研究提供了关键基础设施。
当前挑战
KRETA需应对韩语文本丰富视觉问答中的双重挑战:领域问题层面,模型需在复杂布局中实现跨模态推理,如结合韩国文化背景解析历史试题或整合多步骤逻辑分析商业海报;构建过程层面,需克服低资源语言数据稀缺性,通过半自动化流程平衡生成效率与质量,并设计七维度评估指标以消除幻觉现象,同时确保2577个样本在领域与图像类型间的分布代表性。
常用场景
经典使用场景
在视觉语言模型评估领域,KRETA数据集作为首个专注于韩语文本丰富图像理解与推理的大规模基准,其经典使用场景体现在对多模态模型在真实世界韩语环境下的综合能力测试。该数据集通过涵盖15个行业领域和26种图像类型的多样化样本,系统评估模型从基础文本识别到复杂推理的完整能力谱系,特别针对韩语特有的文字结构和文化语境设计了精细的评估维度。
解决学术问题
KRETA有效解决了低资源语言在视觉问答研究中长期存在的评估空白问题,为韩语文本丰富场景下的模型能力量化提供了可靠基准。该数据集通过双系统推理框架区分基础感知与高级认知任务,揭示了现有模型在跨模态推理、领域知识整合和文化语境理解方面的显著瓶颈,推动了多语言视觉语言模型在推理机制和知识表示方面的理论创新。
衍生相关工作
基于KRETA的设计理念和方法论,衍生出了一系列重要的后续研究。其半自动化VQA生成流程被拓展至其他低资源语言基准构建,双系统评估框架启发了多语言模型认知架构的改进研究。该数据集催生的模型比较分析工作进一步推动了Qwen2.5-VL、InternVL2.5等模型在韩语理解方面的专项优化,并为跨语言传递学习、文化适应性建模等新兴研究方向提供了实验基础。
以上内容由遇见数据集搜集并总结生成



