KoViDoRe v2
收藏github2026-01-07 更新2026-01-08 收录
下载链接:
https://github.com/whybe-choi/kovidore-data-generator
下载链接
链接失效反馈官方服务:
资源简介:
KoViDoRe v2包括四个子集,每个子集专注于一个独特的企业相关领域:人力资源(HR)、能源政策与电力市场趋势(Energy)、季度经济趋势报告(Economic)、网络威胁分析与安全指南(Cybersecurity)。
KoViDoRe v2 comprises four subsets, each focusing on a distinct enterprise-related domain: Human Resources (HR), Energy Policy and Electricity Market Trends (Energy), Quarterly Economic Trend Reports (Economic), and Cyber Threat Analysis and Security Guidelines (Cybersecurity).
创建时间:
2025-12-18
原始信息汇总
KoViDoRe Data Generator 数据集概述
数据集简介
KoViDoRe Data Generator 是一个用于构建 KoViDoRe v2 基准测试的合成数据生成流水线,旨在评估韩语视觉文档检索模型。该流水线解决了 KoViDoRe v1 版本中单页匹配的局限性,通过生成需要跨多页综合信息而非从孤立单页检索答案的查询。
流水线构成
流水线包含四个主要阶段:语料库构建、摘要生成、查询生成和假阴性过滤。详细文档请参阅 PIPELINE.md。
生成的数据集
生成的 KoViDoRe v2 基准测试包含四个子集,每个子集专注于一个独特的企业相关领域:
| 子集 | 描述 | 链接 |
|---|---|---|
| HR | 劳动力展望与就业政策 | https://huggingface.co/datasets/whybe-choi/kovidore-v2-hr-beir |
| Energy | 能源政策与电力市场趋势 | https://huggingface.co/datasets/whybe-choi/kovidore-v2-energy-beir |
| Economic | 季度经济趋势报告 | https://huggingface.co/datasets/whybe-choi/kovidore-v2-economic-beir |
| Cybersecurity | 网络威胁分析与安全指南 | https://huggingface.co/datasets/whybe-choi/kovidore-v2-cybersecurity-beir |
许可证
MIT
致谢
- 该流水线受 ViDoRe V3 启发。
- 感谢 NVIDIA NeMo Data Designer 团队开源其库。
- 感谢 Upstage x AWS AI Initiative 提供免费 API 服务。
- 感谢用于构建 KoViDoRe v2 任务的公共数据门户(Public Data Portal)提供的数据集。
联系方式
如有问题或建议,请在 GitHub 仓库提交 issue 或联系维护者 Yongbin Choi (whybe.choi@gmail.com)。
引用
若在研究中使用 KoViDoRe v2,请按以下格式引用: bibtex @misc{choi2026kovidorev2, author = {Yongbin Choi}, title = {KoViDoRe v2: a comprehensive evaluation of vision document retrieval for enterprise use-cases}, year = {2026}, url = {https://github.com/whybe-choi/kovidore-data-generator}, note = {A benchmark for evaluating Korean vision document retrieval with multi-page reasoning queries in practical domains} }
搜集汇总
数据集介绍

构建方式
在视觉文档检索领域,KoViDoRe v2数据集的构建采用了一套精细的合成数据生成流程。该流程从PDF文档中构建语料库开始,随后通过四个核心阶段展开:首先生成单节摘要,进而整合为跨节摘要,再基于摘要或原始上下文生成查询,最后利用大语言模型进行误报过滤,并辅以人工质量审核。这一多阶段设计确保了查询需要综合多页信息进行推理,有效克服了早期版本局限于单页匹配的不足。
特点
KoViDoRe v2数据集展现出鲜明的专业性与实用性特征。其覆盖人力资源、能源、经济与网络安全四个企业级关键领域,每个子集均聚焦于具体的行业文档,如季度经济趋势报告或网络威胁分析指南。数据集的核心创新在于引入了需要跨页推理的查询任务,模拟了真实业务场景中信息整合的需求,从而为韩语视觉文档检索模型提供了更贴近实际应用的评估基准。
使用方法
对于研究人员而言,使用KoViDoRe v2数据集进行评估需遵循其标准流程。数据集已按照BEIR基准格式进行组织,用户可直接从Hugging Face平台下载各领域子集。在具体应用中,模型需处理包含文本与视觉布局信息的文档图像,并针对那些答案分散在多个页面的复杂查询进行检索。该设计旨在系统检验模型在韩语环境下的多模态理解与跨页信息合成能力。
背景与挑战
背景概述
KoViDoRe v2 数据集由 Yongbin Choi 等人于2026年构建,旨在为韩语视觉文档检索领域提供一个全面的评估基准。该数据集受 ViDoRe V3 启发,针对企业级应用场景,涵盖了人力资源、能源政策、经济趋势和网络安全四个关键领域。其核心研究问题聚焦于提升多页面推理能力,即要求检索系统能够综合跨页信息以回答复杂查询,从而克服了早期版本仅支持单页面匹配的局限性。这一创新不仅推动了韩语文档理解技术的发展,也为多模态信息检索在真实业务环境中的部署奠定了重要基础。
当前挑战
在视觉文档检索领域,KoViDoRe v2 致力于解决跨页面信息综合的挑战,即模型需从分散于多页的视觉文档中整合关键内容以回应复杂查询,这对检索系统的语义理解和推理能力提出了更高要求。数据构建过程中,生成高质量的多页面查询面临显著困难,包括确保查询答案不孤立于单一页面,以及通过人工审核与大型语言模型过滤来消除误报负样本,从而维持数据集的严谨性与可靠性。
常用场景
经典使用场景
在跨语言信息检索领域,KoViDoRe v2数据集作为韩语视觉文档检索的基准工具,其经典使用场景聚焦于评估模型在复杂企业文档中的多页推理能力。该数据集通过合成查询,模拟真实业务环境中需整合跨页面信息的检索任务,例如从多页政策报告或威胁分析文档中提取综合答案,从而推动检索系统超越单页匹配的局限,提升对长篇结构化文档的理解深度。
实际应用
在实际应用层面,KoViDoRe v2直接服务于企业级文档智能系统,尤其在人力资源、能源政策、经济趋势与网络安全等专业领域。例如,系统可借助该数据集训练的模型,自动从多页年度报告或安全指南中检索综合信息,辅助决策分析或合规审查,显著提升信息处理效率与准确性,为韩语环境下的知识管理提供了可靠的技术支撑。
衍生相关工作
KoViDoRe v2的构建灵感源于ViDoRe V3基准,并在此基础上针对韩语与企业场景进行了深化拓展。相关经典工作包括基于NVIDIA NeMo Data Designer库的合成数据生成流程,以及利用Upstage API实现的查询优化与误报过滤。这些衍生技术不仅丰富了多语言视觉检索的研究生态,也为后续跨领域文档理解基准的构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



