five

kovidore-v2-energy-mteb

收藏
Hugging Face2026-01-11 更新2026-01-12 收录
下载链接:
https://huggingface.co/datasets/whybe-choi/kovidore-v2-energy-mteb
下载链接
链接失效反馈
官方服务:
资源简介:
根据问题检索相关页面。该数据集名为Energy,是一个关于能源市场趋势、政策规划和行业统计的报告语料库,旨在用于复杂文档理解任务。数据集包含视觉文档检索、图像到文本和文本到图像等多种任务类别,适用于社交领域。数据集的语言为韩语,许可证为cc-by-4.0,并且是单语言的。数据集分为三个配置:corpus(语料库)、qrels(查询相关文档)和queries(查询),每个配置都有详细的特征描述和分割信息。
创建时间:
2026-01-08
原始信息汇总

数据集概述

基本信息

  • 数据集名称: KoVidore2EnergyRetrieval
  • 托管地址: https://huggingface.co/datasets/whybe-choi/kovidore-v2-energy-mteb
  • 语言: 韩语 (Korean)
  • 许可证: CC BY 4.0
  • 多语言性: 单语
  • 任务类别: 视觉文档检索、图像到文本、文本到图像
  • 领域: 社会 (Social)
  • 参考来源: https://github.com/whybe-choi/kovidore-data-generator

数据来源与标注

数据集结构与内容

数据集包含三个配置,均仅包含测试集。

1. 语料库 (corpus)

  • 描述: 包含文档页面信息。
  • 特征:
    • image: 图像
    • doc_id: 字符串,文档标识符
    • markdown: 字符串
    • elements: 字符串
    • page_number_in_doc: 整数,文档内页码
    • id: 字符串,标识符
    • modality: 字符串,模态
  • 测试集统计:
    • 样本数量: 1993
    • 数据集大小: 1646074842 字节
    • 下载大小: 1614219977 字节

2. 查询 (queries)

  • 描述: 包含查询信息。
  • 特征:
    • language: 字符串,语言
    • query_types: 字符串列表,查询类型
    • query_format: 字符串,查询格式
    • source_type: 字符串,来源类型
    • query_type_for_generation: 字符串,用于生成的查询类型
    • answer: 字符串,答案
    • id: 字符串,标识符
    • text: 字符串,文本
    • modality: 字符串,模态
  • 测试集统计:
    • 样本数量: 173
    • 数据集大小: 125258 字节
    • 下载大小: 66216 字节

3. 相关性判断 (qrels)

  • 描述: 包含查询与文档之间的相关性判断。
  • 特征:
    • query-id: 字符串,查询标识符
    • corpus-id: 字符串,语料库标识符
    • score: 整数,相关性分数
  • 测试集统计:
    • 样本数量: 525
    • 数据集大小: 23630 字节
    • 下载大小: 6191 字节

数据集描述与用途

  • 核心任务: 根据问题检索相关页面。
  • 内容主题: 包含能源市场趋势、政策规划和行业统计报告,用于复杂文档理解任务。
  • 评估基准: 作为MTEB (Massive Text Embedding Benchmark) 数据集,用于评估嵌入模型。

数据集统计摘要 (测试集)

  • 总样本数: 2101
  • 查询文本统计:
    • 总文本长度: 10417 字符
    • 最小文本长度: 22 字符
    • 平均文本长度: 54.83 字符
    • 最大文本长度: 103 字符
    • 唯一文本数: 189
  • 文档图像统计:
    • 最小图像宽度: 2221 像素
    • 平均图像宽度: 2305.04 像素
    • 最大图像宽度: 2480 像素
    • 最小图像高度: 3036 像素
    • 平均图像高度: 3186.20 像素
    • 最大图像高度: 3508 像素
    • 唯一图像数: 1900
  • 相关文档统计:
    • 相关文档总数: 571
    • 每个查询最小相关文档数: 1
    • 每个查询平均相关文档数: 3.01
    • 每个查询最大相关文档数: 7
    • 唯一相关文档数: 464

使用与评估

  • 评估方法: 可使用MTEB库进行评估。

  • 评估代码示例: python import mteb task = mteb.get_task("KoVidore2EnergyRetrieval") evaluator = mteb.MTEB([task]) model = mteb.get_model(YOUR_MODEL) evaluator.run(model)

  • 更多信息: 请参考MTEB的GitHub仓库: https://github.com/embeddings-benchmark/mteb

引用信息

如需使用本数据集,请引用数据集本身以及MTEB基准。

搜集汇总
数据集介绍
main_image_url
构建方式
在能源政策与市场分析领域,kovidore-v2-energy-mteb数据集通过衍生方式构建,其源数据来自whybe-choi/kovidore-v2-energy-beir。该数据集专注于韩语单语环境,包含能源市场趋势报告、政策规划文档及行业统计数据,旨在支持复杂文档理解任务。构建过程中,原始文档被转化为结构化格式,涵盖图像、文本标识符、Markdown内容、页面元素及页面编号等多模态特征,并通过精心设计的查询与相关性标注(qrels)形成标准化的测试分割,为评估模型在视觉文档检索任务上的性能提供了坚实基础。
特点
该数据集在视觉文档检索领域展现出鲜明的多模态特性,其核心特征在于融合了高分辨率图像与结构化文本信息。数据集包含1993个文档样本,每个文档均配有精确的页面图像,平均宽度约2305像素、高度约3186像素,确保了视觉细节的清晰呈现。同时,查询部分包含173条精心设计的韩语问题,平均长度约55字符,覆盖了能源领域的多样化主题。相关性标注体系细致地关联了查询与文档,平均每个查询对应约3个相关文档,体现了任务的实际复杂性。数据集严格遵循MTEB基准框架,为跨模态检索模型的评估提供了标准化、可复现的实验环境。
使用方法
在嵌入模型评估实践中,kovidore-v2-energy-mteb数据集可通过MTEB(Massive Text Embedding Benchmark)框架便捷调用。研究人员首先需安装mteb库,随后使用特定任务标识符“KoVidore2EnergyRetrieval”获取任务实例。通过MTEB评估器加载待测的嵌入模型,即可自动化执行检索性能评估。该过程涵盖了从文档编码、查询匹配到相关性排序的全流程,最终输出标准化的检索指标。数据集的设计确保了评估结果的可比性与可靠性,为改进跨模态检索模型在韩语能源文档理解上的能力提供了关键基准。
背景与挑战
背景概述
在信息检索与多模态人工智能融合发展的背景下,视觉文档检索任务逐渐成为处理复杂企业文档的关键技术。KoVidore-v2-energy-mteb数据集由研究人员Yongbin Choi等人于2026年构建,并整合于大规模多模态文本嵌入基准(MMTEB)框架之中。该数据集专注于韩语能源领域的报告文档,涵盖市场趋势、政策规划与行业统计等多维度内容,旨在推动针对多页推理查询的视觉文档检索模型评估。其核心研究问题在于解决企业级应用场景下,如何高效准确地从包含图文混合结构的文档中检索相关信息,从而提升复杂文档的理解与分析能力。该数据集的建立为韩语多模态检索研究提供了重要的基准资源,促进了跨语言与跨模态嵌入模型的发展。
当前挑战
该数据集致力于解决视觉文档检索领域的核心挑战,即如何实现文本到图像的高效跨模态匹配,特别是在韩语能源报告这类专业领域文档中,模型需克服语义鸿沟,精准理解图文间的复杂关联。构建过程中面临多重困难:其一,源数据源自专业能源报告,涉及大量图表与结构化文本,标注工作需要深入领域知识以确保查询与文档片段的对应准确性;其二,数据呈现多页文档形式,要求模型具备跨页面的推理能力,这增加了标注与评估的复杂性;其三,作为韩语单语数据集,其构建需处理语言特有的表达与排版特征,同时融入国际基准框架,对数据标准化与多模态对齐提出了较高要求。
常用场景
经典使用场景
在能源政策与市场分析领域,复杂文档的理解与检索是核心挑战。KoVidore-v2-energy-mteb数据集专为评估文本到图像检索模型而设计,其经典使用场景在于通过自然语言查询,从包含大量图表、统计数据的能源报告多页文档中,精准定位并返回相关的视觉页面。这一过程模拟了研究人员或分析师在实际工作中,依据具体问题快速查找报告内关键图表或数据页面的需求,对模型的多模态理解与跨模态对齐能力提出了较高要求。
解决学术问题
该数据集主要针对跨模态检索,特别是视觉文档检索中的学术难题。它有效解决了传统文本检索模型在处理富含视觉信息的结构化文档时,难以建立文本描述与图像内容间语义关联的瓶颈。通过提供标准化的评估基准,该数据集推动了多模态嵌入模型在复杂文档理解任务上的性能量化与比较,为研究文本与图像在统一语义空间中的联合表示学习提供了关键实验平台,促进了多模态信息检索领域的方法论发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在多模态检索基准的扩展与模型优化。作为MTEB(大规模文本嵌入基准)和MMTEB(大规模多语言文本嵌入基准)框架的重要组成部分,它催生了一系列针对韩语及多语言场景的视觉文档检索模型评估研究。相关研究工作致力于提升模型对文档布局、图表类型及文本-图像细粒度关联的理解能力,并探索如何将此类基准的评估范式推广至金融、医疗等其他垂直领域的文档理解任务中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作