FinHNQue-FinanceHardNegativeQueries

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/DocReRank/FinHNQue-FinanceHardNegativeQueries

下载链接

链接失效反馈

官方服务：

资源简介：

FinHNQue（金融困难负样本）数据集是为了解决金融文档检索中的挑战而开发的，这些挑战包括模型在数值、实体名称和时间段等细微差别上的处理困难。尽管ColPali训练集包含了金融文档，但由于这些细微差别，其在金融基准测试上的表现仍然较低。FinHNQue通过使用专门的提示策略引入了高度针对性的困难负样本，对于每个正样本查询，通过修改一个确切的事实属性（如年份、公司名称、数值、金融指标、主题指标或业务部门）生成多个负样本。这种方法产生的困难负样本既合理又不可回答，迫使模型处理细微的事实差异。

FinHNQue (Financial Hard Negative Samples) dataset was developed to address the challenges in financial document retrieval, including models' difficulties in handling subtle discrepancies such as numerical values, entity names, and time periods. Although the ColPali training set contains financial documents, its performance on financial benchmarks remains subpar due to these subtle discrepancies. FinHNQue introduces highly targeted hard negative samples via specialized prompting strategies: for each positive sample query, multiple negative samples are generated by modifying exactly one factual attribute, such as year, company name, numerical value, financial indicator, thematic indicator, or business sector. This method yields hard negative samples that are both plausible and unanswerable, forcing models to handle subtle factual differences.

创建时间：

2025-07-21

原始信息汇总

数据集概述：FinHNQue (Financial Hard Negative Queries)

数据集摘要

目的：解决金融文档检索中的细粒度区分挑战，如数值、实体名称和时间段。
特点：通过专门提示策略生成高度针对性的困难负样本，每个正查询通过修改恰好一个事实属性生成多个负样本。
- 修改属性包括：年份、公司名称、数值、财务指标、主题指标、业务部门等。
效果：生成的困难负样本保持合理但不可回答，迫使模型处理细粒度事实差异。

数据集详情

许可证：cc-by-4.0
数据文件：
- 分割：train
- 路径：data/train-*
特征：
- image：文档页面图像。
- positive_queries：包含可从页面图像回答的正查询列表。
- negative_queries：列表的列表，其中内部列表包含多个困难负查询。
- answer：与正查询关联的正确答案。
数据统计：
- 训练集：
  - 字节数：5396420013.984
  - 样本数：21904
- 下载大小：5271554587
- 数据集大小：5396420013.984

加载数据集

python from datasets import load_dataset

从Hugging Face Hub加载

dataset = load_dataset("DocReRank/FinHNQue-FinanceHardNegativeQueries")

显示示例

example = dataset["train"][0] print(example)

引用

bibtex @article{wasserman2025docrerank, title={DocReRank: Single-Page Hard Negative Query Generation for Training Multi-Modal RAG Rerankers}, author={Wasserman, Navve and Heinimann, Oliver and Golbari, Yuval and Zimbalist, Tal and Schwartz, Eli and Irani, Michal}, journal={arXiv preprint arXiv:2505.22584}, year={2025} }

搜集汇总

数据集介绍

构建方式

在金融文档检索领域，模型往往难以处理数值、实体名称和时间周期等细粒度差异。FinHNQue数据集通过精心设计的提示策略构建，为每个正查询生成多个负查询，仅修改单一事实属性（如年份、公司名称、数值或金融指标），从而创建既具挑战性又保持合理性的硬负样本。这种构建方式显著提升了模型对细微事实差异的识别能力。

使用方法

FinHNQue数据集可通过Hugging Face Hub直接加载，使用简便。用户仅需调用`load_dataset`函数并指定数据集名称即可获取训练集。每个样本以字典形式呈现，包含`image`、`positive_queries`、`negative_queries`和`answer`四个字段，便于直接用于多模态检索模型的训练与评估。该数据集特别适用于提升模型在金融文档检索任务中对细粒度差异的敏感性。

背景与挑战

背景概述

FinHNQue（Financial Hard Negative Queries）数据集由Navve Wasserman等研究人员于2025年提出，旨在解决金融文档检索领域中的细粒度区分难题。该数据集由DocReRank团队开发，专注于提升多模态检索增强生成（RAG）模型的性能。金融文档通常包含大量数值、实体名称和时间周期等关键信息，传统模型在处理此类细微差别时表现欠佳。FinHNQue通过引入高度针对性的困难负样本，显著提升了模型对金融领域复杂查询的区分能力，为金融信息检索领域的研究提供了重要基准。

当前挑战

FinHNQue数据集面临的核心挑战在于如何生成既具挑战性又保持合理性的困难负样本。金融文档中的数值、实体和时间信息往往仅存在微小差异，模型需准确捕捉这些细微变化以避免误判。在构建过程中，研究人员需确保每个负样本仅修改单一事实属性，如年份、公司名称或财务指标，同时保持其余上下文不变。这种精确的修改策略要求对金融领域的专业知识有深刻理解，且需平衡样本的难度与真实性，以避免生成过于简单或完全不合理的负样本。

常用场景

经典使用场景

在金融文档检索领域，FinHNQue数据集通过精心设计的硬负样本生成策略，为多模态检索增强生成（RAG）模型的训练提供了关键支持。该数据集特别适用于训练模型识别金融文档中细微的数值差异、实体名称变化和时间周期调整等关键特征，从而提升模型在复杂金融语境下的检索精度。

解决学术问题

FinHNQue数据集有效解决了金融文档检索中模型难以区分细粒度事实差异的学术难题。通过生成仅修改单一事实属性的硬负样本，该数据集迫使模型学习识别如年份、公司名称、数值等关键信息的细微变化，显著提升了模型在金融基准测试中的表现，填补了现有训练数据在金融领域特异性不足的空白。

实际应用

该数据集在金融信息检索系统开发中具有重要应用价值。投资银行、证券分析机构可利用其训练的模型，快速准确地从海量金融报告中检索特定公司的财务指标、并购事件或季度业绩等关键信息，大幅提升金融分析师的工作效率和数据处理的准确性。

数据集最近研究