KoVidore Benchmark
收藏github2025-10-14 更新2025-10-15 收录
下载链接:
https://github.com/whybe-choi/KoVidore-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
KoVidore是一个用于评估韩语视觉文档检索能力的综合基准数据集,基于ViDoRe构建,包含5个不同任务类型:多模态信息检索(MIR)、视觉问答(VQA)、演示文稿幻灯片(Slide)、办公文档(Office)和金融OCR文档(FinOCR),涵盖韩语商业和学术环境中常见的各种视觉文档类型,总计包含7,875个文档和3,596个查询
KoVidore is a comprehensive benchmark dataset for evaluating Korean visual document retrieval capabilities, constructed based on ViDoRe. It includes five distinct task types: Multimodal Information Retrieval (MIR), Visual Question Answering (VQA), presentation slides (Slide), office documents (Office), and financial OCR documents (FinOCR). Covering a wide range of visual document types commonly encountered in Korean commercial and academic environments, the dataset has a total of 7,875 documents and 3,596 queries.
创建时间:
2025-09-15
原始信息汇总
KoVidore Benchmark 数据集概述
数据集简介
KoVidore是一个用于评估韩语视觉文档检索能力的综合性基准数据集。该数据集基于ViDoRe基准构建,专门针对韩语视觉文档(包括截图、演示文稿和办公文档)的文本到图像检索任务进行评估。
任务类型
MIR(多模态信息检索)
- 文档数量:1,366
- 查询数量:1,496
- 描述:多模态信息检索
- 示例查询:코로나19 동절기 집중접종기간 운영개요 혼합형에 대해 알려주세요
VQA(视觉问答)
- 文档数量:1,101
- 查询数量:1,500
- 描述:视觉问答
- 示例查询:경제협력 품목 중 가장 적은 교역액과 가장 많은 교역액의 차이는 얼마인가요?
Slide(演示文稿)
- 文档数量:1,415
- 查询数量:180
- 描述:演示文稿幻灯片
- 示例查询:포털 사이트나 콘텐츠 제공자가 기존 콘텐츠를 다양한 장치로 서비스할 때 얻는 이점은 무엇인가?
Office(办公文档)
- 文档数量:1,993
- 查询数量:222
- 描述:办公文档
- 示例查询:정치·사회 이슈를 주제로 하는 유튜브 채널을 통해 정보를 얻는 비율은 얼마인가요?
FinOCR(金融OCR文档)
- 文档数量:2,000
- 查询数量:198
- 描述:金融OCR文档
- 示例查询:반려동물보험에 가입한 보험계약자 공형진의 증권번호는 무엇인가요?
模型性能排行榜
| 模型 | 模型大小 | FinOCR | MIR | Office | Slide | VQA | 平均分 | ViDoRe V2 (英文) |
|---|---|---|---|---|---|---|---|---|
| jinaai/jina-embeddings-v4 | 3800 | 88.9 | 73.8 | 88.6 | 89.5 | 86.2 | 85.4 | 57.6 |
| nomic-ai/colnomic-embed-multimodal-7b | 7000 | 81.9 | 67.9 | 85.9 | 87.6 | 87.2 | 82.1 | 60.8 |
| nomic-ai/colnomic-embed-multimodal-3b | 3000 | 82.2 | 70.7 | 86.3 | 78.4 | 84.4 | 80.4 | 55.5 |
| vidore/colqwen2.5-v0.2 | 3000 | 67.3 | 62.5 | 75.3 | 78.0 | 81.0 | 72.8 | 59.3 |
| vidore/colqwen2-v1.0 | 2210 | 66.3 | 57.4 | 68.7 | 73.9 | 75.5 | 68.4 | 55.0 |
数据来源
- 멀티모달 정보검색 데이터:https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71813
- 시각화 자료 질의응답 데이터:https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71812
- 오피스 문서 생성 데이터:https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71811
- OCR 데이터(금융 및 물류):https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71301
评估指标
- 主要评估指标:NDCG@5
- 结果保存位置:results/目录
联系方式
- Yongbin Choi:whybe.choi@gmail.com
- Yongwoo Song:syw5141@khu.ac.kr
搜集汇总
数据集介绍

构建方式
在构建多模态检索基准的背景下,KoVidore数据集以ViDoRe框架为基础,整合了韩国AI Hub平台中的多样化视觉文档资源。该数据集通过系统化采集五个独立任务所需的图像与文本数据,涵盖了商业演示文稿、办公文档及金融OCR材料等常见格式。构建过程中严格遵循数据预处理流程,确保图像与韩语查询之间的语义对齐,为评估模型在韩语环境下的跨模态检索能力提供了坚实基础。
使用方法
针对多模态检索模型的评估需求,KoVidore提供了命令行与程序库两种集成方式。研究人员可通过安装依赖后调用预置接口,灵活指定待评估模型与任务类型,并自定义批处理规模以适配不同硬件环境。评估流程将自动加载本地存储的图像数据与标注信息,基于NDCG@5指标生成标准化测试报告,为模型在韩语视觉文档检索场景中的性能比较提供可靠依据。
背景与挑战
背景概述
KoVidore基准测试作为韩语视觉文档检索领域的重要评估工具,由Yongbin Choi与Yongwoo Song等研究人员基于ViDoRe框架构建而成。该数据集聚焦于多模态信息检索的核心研究问题,通过整合韩国商业与学术环境中常见的屏幕截图、演示文稿及办公文档等视觉材料,系统评估模型对韩语文本查询与视觉文档的跨模态匹配能力。其涵盖的五项差异化任务不仅拓展了多模态检索的应用边界,更为韩语自然语言处理与计算机视觉的交叉研究提供了标准化评估范式,显著推动了东亚语言场景下的文档智能技术发展。
当前挑战
在视觉文档检索领域,KoVidore需应对韩语特有的语言结构复杂性及文档版式多样性带来的语义对齐挑战,例如韩语形态素组合变化对文本-图像细粒度关联的影响。数据集构建过程中面临多重技术障碍:原始数据需从分散的AI Hub平台手动获取并重构目录结构,不同文档类型的视觉特征标准化处理存在显著差异,金融OCR任务还需克服手写体与印刷体混排的识别难题。此外,跨任务评估指标的统一化与数据版权限制下的可复现性保障,亦构成该基准持续演进的关键制约因素。
常用场景
经典使用场景
在跨模态检索研究领域,KoVidore基准测试通过五大任务体系构建了韩语视觉文档检索的标准化评估框架。该数据集聚焦于韩国商业与学术环境中常见的文档类型,包括演示文稿、办公文档及金融OCR材料,通过文本查询与视觉文档的匹配任务,系统评估多模态模型在真实韩语场景下的语义理解与跨模态对齐能力。其任务设计覆盖从信息检索到视觉问答的完整技术链条,为模型在复杂文档结构中的表现提供多维度的量化分析。
解决学术问题
该数据集有效解决了韩语多模态检索领域缺乏专业评估基准的学术空白。传统跨模态模型在非英语场景中常因语言特性差异导致性能衰减,KoVidore通过构建包含5,875个文档与3,596个查询的韩语语料,为研究韩文字符识别、文档布局理解与文化语境适配等关键问题提供实验基础。其细粒度的任务划分推动了对文档结构语义、视觉文字融合等核心挑战的深入探索,显著提升了多模态模型在非拉丁语系场景的泛化能力。
实际应用
在现实应用层面,KoVidore支撑的检索技术已渗透到韩国数字化服务的多个领域。企业知识库系统通过该基准优化的模型,能够快速定位内部文档中的业务报表与会议纪要;教育机构利用其幻灯片检索功能实现教学资源的智能管理;金融行业则借助FinOCR任务提升对韩文票据与合同的自动化处理效率。这些应用显著降低了人工处理海量视觉文档的成本,为韩国本土化人工智能服务提供了关键技术支撑。
数据集最近研究
最新研究方向
在跨模态信息检索领域,KoVidore基准测试系统通过整合韩国视觉文档的多样性特征,推动了多语言环境下的文本-图像检索技术发展。当前研究聚焦于提升模型对韩语商业文档、演示文稿及金融OCR等专业内容的语义理解能力,尤其关注多模态嵌入模型在跨语言迁移中的性能表现。前沿探索涉及视觉-语言预训练架构的优化,以及针对韩语字符识别与文档布局理解的专项技术突破,这些进展正逐步缩小非英语多模态检索系统与通用模型之间的效能差距。
以上内容由遇见数据集搜集并总结生成



