FINDER

Name: FINDER
Creator: LinqAlpha, UNIST, Yonsei University, University of Florida
Published: 2025-04-22 19:30:13
License: 暂无描述

arXiv2025-04-22 更新2025-04-24 收录

下载链接：

http://arxiv.org/abs/2504.15800v1

下载链接

链接失效反馈

官方服务：

资源简介：

FINDER数据集是由LinqAlpha等机构创建的，专为金融领域的问题回答和评估检索增强生成（RAG）而设计的专家生成的数据集。该数据集包含5703个由金融专家注释的查询-证据-答案三元组，这些三元组源自现实世界的金融咨询。数据集聚焦于模糊查询的理解和准确检索，反映了金融专业人士在实际搜索行为中的简洁性和模糊性。FINDER涵盖了从公司概况到财务报表分析等多个金融主题，旨在推动未来在金融领域更稳健的RAG系统研究。

The FINDER dataset is an expert-annotated dataset created by institutions such as LinqAlpha, tailored specifically for financial domain question answering and the evaluation of Retrieval-Augmented Generation (RAG) systems. It comprises 5703 query-evidence-answer triples annotated by financial experts, all derived from real-world financial advisory scenarios. The dataset centers on the understanding of ambiguous queries and accurate information retrieval, reflecting the conciseness and ambiguity inherent in the actual search behaviors of financial practitioners. FINDER covers a broad spectrum of financial topics ranging from corporate profiles to financial statement analysis, with the goal of advancing future research on more robust RAG systems within the financial domain.

提供机构：

LinqAlpha, UNIST, Yonsei University, University of Florida

创建时间：

2025-04-22

搜集汇总

数据集介绍

构建方式

FINDER数据集构建过程融合了金融领域的专业知识和严谨的数据采集方法。该数据集基于真实金融从业者的查询需求，从标普500指数公司的10-K年报中提取信息，经过金融专家团队的精细标注。数据采集阶段首先从EDGAR系统爬取原始HTML格式的10-K文件，经过预处理后转换为结构化文本。查询部分来源于对冲基金分析师、投资组合经理等专业人士的实际工作场景，初始收集7000条查询后，通过去重和平衡采样筛选出5703条高质量问题，确保覆盖490家公司的全面金融信息。标注过程采用双专家交叉验证机制，由投行分析师和注册会计师独立完成证据提取和答案生成，再通过LLM辅助标准化和人工复核确保数据一致性。

特点

FINDER数据集的核心特征体现在其真实性和专业性两个维度。该数据集独特地捕捉了金融专业人士的实际查询行为，43.45%的查询包含3-4个专业术语，46.41%的查询含有5个以上缩写或行业术语，完美复现了金融领域查询的简洁性和模糊性特点。内容覆盖公司概况(18.95%)、财务报表分析(17.36%)、公司治理(12.59%)等八大金融主题，同时包含15.48%需要数值计算的量化问题和84.52%的定性分析问题。特别值得注意的是，49.83%的量化问题需要复合推理能力，这使FINDER成为评估金融领域复杂推理能力的理想基准。

使用方法

FINDER数据集的使用需要结合检索增强生成(RAG)技术框架。实践表明，最佳使用方法应采用三阶段流程：首先使用E5-mistral等稠密检索模型进行初步文档检索，召回率可达25.95%；继而通过Claude-3.7-Sonnet等大语言模型对检索结果进行重排序，F1分数可提升至63.05%；最后在生成阶段，当提供完美上下文时，GPT-o1等模型的答案正确率可达68.13%。针对不同任务类型，建议区别对待：定性分析问题适合使用Qwen-QWQ模型(正确率34.11%)，而乘法等数值运算则推荐GPT-o1(正确率42.90%)。数据集特别适用于评估模型在模糊查询理解、专业术语处理和金融数值推理等方面的综合能力。

背景与挑战

背景概述

FINDER（Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation）是由LinqAlpha、UNIST、延世大学和佛罗里达大学的研究团队于2025年发布的一个专业金融问答数据集。该数据集专注于金融领域的检索增强生成（RAG）任务，旨在解决金融信息检索中的高精度需求。FINDER包含5,703个由金融专家标注的查询-证据-答案三元组，这些数据源自真实世界的金融查询，涵盖了公司年报（10-K文件）中的多样化金融主题。FINDER的独特之处在于其关注金融查询的模糊性和简洁性，模拟了金融专业人士的实际搜索行为，为金融领域的问答系统提供了一个更真实的评估基准。

当前挑战

FINDER面临的挑战主要体现在两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，金融问答要求极高的准确性和时效性，而金融查询通常包含大量缩写、术语和模糊表达，这使得模型在理解和检索相关信息时面临巨大困难。例如，模型需要准确识别查询中的公司名称、业务指标等关键信息，并从海量金融文档中检索出精确的证据。在构建过程中，挑战包括数据收集的复杂性（需从真实金融查询中筛选和标注）、证据与答案的精确匹配（需金融专家参与验证），以及处理金融文档中的非结构化数据（如表格和文本混合内容）。此外，数据集的多样性和覆盖面（涵盖490家公司的不同金融主题）也增加了构建的难度。

常用场景

经典使用场景

FINDER数据集专为金融领域的问答系统设计，特别关注检索增强生成（RAG）技术的评估。其经典使用场景包括金融专业人士通过自然语言查询获取公司年报（如10-K文件）中的精确信息。例如，分析师可能查询“MS交易收入的复合年增长率”，系统需从海量文档中检索相关证据并生成准确答案。数据集包含5,703个由专家标注的查询-证据-答案三元组，模拟了真实金融搜索中的模糊性和专业性。

衍生相关工作

FINDER推动了多项金融NLP研究的演进：1）检索模型优化（如mE5、GTE在跨类别检索中的性能对比）；2）查询重写技术（表5显示专业术语扩展可使BM25精度提升21%）；3）混合推理框架（如ConvFinQA的对话能力与FINDER检索需求的结合）。后续工作如FinanceBench、DocFinQA均借鉴了其证据标注体系，而RAGAS评估框架的采用则标准化了金融RAG的评估指标。

数据集最近研究