kovidore-v2-energy-beir

Hugging Face2026-01-09 更新2026-01-10 收录

下载链接：

https://huggingface.co/datasets/whybe-choi/kovidore-v2-energy-beir

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为`Energy`，是`KoViDoRe v2 Benchmark`的四个语料库之一，包含关于能源市场趋势、政策规划和行业统计的报告，用于复杂文档理解任务。数据集包含17份报告，语言为韩语，领域为能源，文档类型为报告。数据集结构包括语料库、查询、相关文档映射（qrels）和原始PDF文件。语料库包含文档的完整集合，查询包含搜索问题或语句，qrels将查询映射到相关文档。数据集还提供了详细的统计信息，如文档总数、页面总数、查询总数等。

创建时间：

2025-12-27

原始信息汇总

KoViDoRe v2 : Energy 数据集概述

数据集基本信息

数据集名称：KoViDoRe v2 : Energy
主要用途：用于复杂文档理解任务，特别是能源市场趋势、政策规划和行业统计报告。
所属系列：KoViDoRe v2 基准测试的四个语料库之一。
语言：韩语 (ko)
领域：能源
文档类型：报告

数据集构成与规模

数据集包含四个配置部分，均仅包含测试集。

1. 语料库 (corpus)

描述：包含待搜索的完整文档集合。
实例数：1911
数据大小：1664632517 字节
下载大小：1397439391 字节
特征：
- corpus_id (int64)：语料文档的唯一数字标识符。
- image (image)：页面图像。
- doc_id (string)：图像来源的文档名称。
- markdown (string)：通过OCR流程从图像中提取的文本。
- elements (string)：通过OCR流程从图像中提取的、带有边界框和文本的布局元素的JSON序列化列表。
- page_number_in_doc (int64)：文档内的原始页码。

2. 文档元数据 (document_metadata)

描述：提供原始文档的元信息。
实例数：10
数据大小：2310 字节
下载大小：5560 字节
特征：
- title (string)：标题。
- file_name (string)：文件名。
- url (string)：URL。
- doc_type (string)：文档类型。
- doc_language (string)：文档语言。
- provider (string)：提供者。
- year (int64)：年份。
- page_number (int64)：页码。
- license (string)：许可证。

3. 查询 (queries)

描述：包含问题或搜索查询的集合。
实例数：190
数据大小：126351 字节
下载大小：66921 字节
特征：
- query_id (int64)：查询的唯一数字标识符。
- query (string)：用于检索的搜索问题或陈述的实际文本。
- language (string)：查询文本的语言。
- query_types (List[string])：描述查询意图的类别或标签列表。
- query_format (string)：查询的句法格式（“instruction”、“keyword”或“question”）。
- source_type (string)：“summary”或“context”，关于注释流程用于创建查询的信息类型的元数据。
- query_type_for_generation (string)：生成查询时请求的特定类型。
- answer (string)：从源文档中提取的答案，使用LLM合并了人工注释。

4. 相关性判断 (qrels)

描述：将查询映射到其对应的相关文档。
实例数：571
数据大小：13704 字节
下载大小：5722 字节
特征：
- query_id (int64)：查询的唯一数字标识符。
- corpus_id (int64)：对应语料文档的唯一数字标识符。
- score (int64)：<query, corpus> 对的相关性分数。可以是1（关键相关）或2（完全相关）：
  - 完全相关 (2) - 页面包含完整答案。
  - 关键相关 (1) - 页面包含回答查询所需的事实或信息，但需要额外信息。

数据集统计摘要

总文档数：10
总页数：1911
总查询数：190
每个查询的平均页数：3.01

各文档查询分布

文档ID	上下文查询数	摘要查询数	总计
2017_world_power_market_trends_china	1	4	5
2017_world_power_market_trends_japan	2	4	6
2017_world_power_market_trends_usa	2	5	7
2020_daejeon_local_energy_plan	41	4	45
2023_world_power_market_trends	33	10	43
2024_energy_statistics_yearbook	23	13	36
2024_incheon_energy_white_paper	14	4	18
2024_long_term_energy_outlook	8	6	14
2025_12_energy_supply_and_demand_trends	0	6	6
2025_major_countries_climate_energy_policy_trends	5	5	10
总计	129	61	190

查询类型分布

查询类型	数量
Compare-Contrast	123
Numerical	68
Open-Ended	101
Enumerative	16
Boolean	12
Extractive	45
Multi-Hop	91

查询格式分布

查询格式	数量
Question	78
Instruction	79
Keyword	33
总计	190

附加资源

原始PDF文件：用于构建语料库的所有原始PDF文件分布在此目录的“pdfs”文件夹中。

许可证信息

为此语料库生成的所有注释、查询-文档相关性判断 (qrels) 及相关元数据均在知识共享署名 4.0 国际许可协议 (CC BY 4.0) 下分发。
原始源文档（语料库）和任何解析文本（语料库中的 markdown 列）的许可状态继承自其各自的发布者。每个原始文档的具体许可信息在其条目的 documents_metadata["license"] 字段中提供。

相关链接

Github项目：https://github.com/whybe-choi/kovidore-benchmark
数据集集合：https://huggingface.co/collections/whybe-choi/kovidore-benchmark-beir-v2
数据生成管道：https://github.com/whybe-choi/kovidore-data-generator

搜集汇总

数据集介绍

构建方式

在能源政策与市场分析领域，数据集的构建需兼顾多模态信息的整合与结构化处理。Kovidore-v2-energy-beir数据集通过系统化流程构建，首先从韩国公共数据门户等权威来源收集了十份涵盖能源市场趋势、政策规划及行业统计的专业报告。每份报告均被转换为图像格式，并运用光学字符识别技术提取文本内容，同时解析页面布局元素。查询部分则基于文档摘要与上下文信息，借助大型语言模型生成多样化的检索问题，并辅以人工标注确保答案准确性。最终，通过查询-文档相关性标注形成标准化的评估集合，为复杂文档理解任务提供坚实基础。

特点

该数据集在能源领域文档理解任务中展现出鲜明的多模态与结构化特征。其核心在于融合了视觉与文本信息，每份文档不仅包含原始页面图像，还提供了经OCR处理的Markdown文本及详细的版面元素解析。查询设计极具多样性，涵盖了对比分析、数值推理、开放问答等七种类型，并以问题、指令和关键词三种格式呈现，有效模拟了真实场景下的信息需求。相关性标注采用两级评分体系，区分了完全相关与关键相关，为检索模型提供了精细的评估标准。所有数据均以韩语呈现，专注于韩国能源领域的专业报告，具有显著的领域与语言特异性。

使用方法

该数据集适用于评估视觉文档检索与工业级检索增强生成系统的性能。研究人员可首先加载corpus、queries和qrels三个核心子集，其中corpus子集提供了文档的图像、文本及结构信息，queries子集包含了多样化的检索问题及其答案，qrels子集则明确了查询与文档之间的相关性映射。在构建检索系统时，可将文档的多模态特征（如图像嵌入或解析后的文本）与查询进行匹配，并利用qrels中的相关性分数对检索结果进行定量评估。数据集遵循BEIR基准格式，便于集成到现有的检索评估框架中，用于测试模型在跨模态、复杂韩语专业文档上的理解与检索能力。

背景与挑战

背景概述

在信息检索与多模态文档理解领域，处理包含复杂视觉布局与专业领域文本的文档一直是一项核心研究课题。Kovidore-v2-energy-beir数据集作为KoViDoRe v2基准测试的组成部分，由研究人员whybe-choi及其团队构建，专注于能源市场趋势、政策规划与行业统计报告的分析。该数据集旨在推动视觉文档检索与工业级检索增强生成技术的发展，通过整合图像、OCR提取文本与结构化布局元素，为评估模型在韩语专业文档上的复杂理解与问答能力提供了标准化测试平台。其构建借鉴了ViDoRe基准测试的框架，并利用了韩国公共数据门户的资源，对提升非英语语境下的多模态信息处理技术具有重要影响力。

当前挑战

该数据集致力于解决视觉文档检索与复杂文档问答领域的挑战，其核心在于处理能源领域专业报告中的多模态信息融合问题。具体挑战包括：模型需要同时解析文档的视觉布局、文本内容及其语义关联，以应对比较对比、数值推理、多跳推理等多样化的查询类型；在构建过程中，挑战体现在从原始PDF中高质量地提取并对齐图像、文本与布局元素，确保OCR过程的准确性，以及通过人工与大型语言模型协作生成具有细粒度相关性标注的查询-答案对，同时需妥善处理不同来源文档的版权许可与数据隐私问题。

常用场景

实际应用

在实际应用中，该数据集可赋能能源行业的智能决策支持系统。例如，政府机构或研究机构可利用其训练模型，快速从海量政策报告中提取关键信息，辅助能源规划与市场预测。企业也能借助基于该数据集的检索工具，分析竞争对手或全球趋势，优化战略部署。这种应用不仅提升了信息处理效率，还促进了数据驱动的能源治理。

衍生相关工作

KoViDoRe v2 Energy数据集衍生了一系列经典研究工作，特别是在视觉文档检索与工业RAG领域。受ViDoRe V3基准的启发，该数据集推动了多模态检索模型的创新，如结合OCR与布局分析的深度学习方法。相关研究聚焦于提升对韩语能源文档的跨模态理解，并促进了开源工具链的发展，为后续的基准扩展与应用实践奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集