DocFinQA

Name: DocFinQA
Creator: Kensho Technologies
Published: 2024-03-01 03:55:14
License: 暂无描述

arXiv2024-03-01 更新2024-06-21 收录

下载链接：

https://github.com/anonymous

下载链接

链接失效反馈

官方服务：

资源简介：

DocFinQA是一个专注于金融领域长文档问答任务的数据集，由Kensho Technologies创建。该数据集扩展了现有的FinQA数据集，增加了7,437个问题，并将平均上下文长度从FinQA的不到700字扩展到DocFinQA的123,000字。数据集中的每个问题都与完整的文档上下文相关联，旨在更真实地模拟金融专业人士处理数百页文档时的情况。DocFinQA不仅用于评估模型在处理长文档时的推理能力，还特别关注金融领域的数值推理，为金融分析、基因序列分析和法律文档合同分析等领域的模型提供了挑战和改进的机会。

DocFinQA is a dataset focused on the long-document question answering task within the financial domain, created by Kensho Technologies. This dataset expands on the existing FinQA dataset by adding 7,437 questions, and extends the average context length from under 700 words in FinQA to 123,000 words in DocFinQA. Each question in the dataset is associated with full document context, aiming to more realistically simulate the scenario where financial professionals process hundreds of pages of documents. DocFinQA is not only used to evaluate the reasoning ability of models when processing long documents, but also pays special attention to numerical reasoning in the financial field, providing challenges and improvement opportunities for models in fields such as financial analysis, gene sequence analysis, and legal document contract analysis.

提供机构：

Kensho Technologies

创建时间：

2024-01-13

搜集汇总

数据集介绍

构建方式

在金融文档分析领域，现有数据集通常局限于短文本片段，难以反映真实场景中处理长篇文档的复杂性。DocFinQA的构建通过扩展FinQA数据集实现，将原有的7,437个问题与完整的美国证券交易委员会报告相结合。具体流程包括从SEC的EDGAR服务获取HTML/XML格式的原始文件，并利用金融专用解析器将其转换为结构化的Markdown文本，以保留表格和数值数据的完整性。每个样本均包含完整文档、问题、可执行的Python程序及对应答案，从而构建了一个平均上下文长度达12.3万词汇的大规模长文档问答数据集。

特点

该数据集的核心特点在于其前所未有的长上下文设置，平均文档长度较原有数据集扩展了175倍，涵盖了多达801份独特的SEC财务报告。DocFinQA不仅包含丰富的数值数据和表格，还要求模型进行基于程序的推理，每个问题均附有可解释的Python代码，用于生成最终答案。这种设计模拟了金融分析师在实际工作中需要从数百页文档中提取并计算关键信息的复杂过程，为评估模型在长文档环境下的数值推理能力提供了高度真实的测试平台。

使用方法

DocFinQA主要用于评估检索式问答系统和长上下文语言模型在金融数值推理任务上的性能。研究通常采用两种范式：一是基于检索的方法，先将文档分割为重叠的文本块，利用编码模型检索与问题最相关的片段，再交由生成模型进行答案推导；二是免检索方法，直接利用支持长上下文的大语言模型处理完整文档。数据集中提供的Python程序标注支持模型训练与评估，可通过少量示例的上下文学习或监督微调来优化模型表现，从而推动在金融等需要长距离依赖和精确数值处理领域的技术进步。

背景与挑战

背景概述

在金融领域，大型语言模型的应用需应对现实场景中的复杂任务，而现有数据集多局限于短文本片段，难以反映分析师处理长篇文档的实际需求。DocFinQA数据集由Kensho Technologies的研究团队于2024年提出，旨在填补这一空白。该数据集基于已有的FinQA数据集，将7,437个问题扩展至完整的美国证券交易委员会报告上下文，平均文本长度从不足700词大幅提升至123,000词。其核心研究问题聚焦于长文档金融数值推理，通过引入全文档语境，推动模型在真实金融分析环境中的深度理解与计算能力评估，对金融自然语言处理领域的发展具有重要影响。

当前挑战

DocFinQA数据集所解决的领域问题在于长文档金融问答，其挑战主要体现在模型需在数十万词的语境中精准定位并融合数值与表格信息，执行复杂算术推理，而现有系统即使采用最先进的检索或长上下文模型，在此任务上仍表现不佳。构建过程中的挑战包括：从海量SEC报告中准确匹配并解析原始文档，确保文本与表格的结构完整性；将FinQA的简短上下文扩展至全文档时，需通过分块与对齐技术保持关键信息不丢失；同时，自动生成可执行的Python代码以增强答案可解释性，但这一过程可能引入代码逻辑错误或近似偏差，影响数据质量。

常用场景

经典使用场景

在金融自然语言处理领域，长文档的数值推理一直是核心挑战。DocFinQA数据集通过提供平均长达12.3万词的全文档美国证券交易委员会报告，构建了一个经典的金融长文档问答评估场景。研究者通常利用该数据集测试检索增强生成模型与长上下文语言模型在真实金融环境下的性能，评估模型从数百页文档中定位关键信息并进行复杂数值计算的能力。这一场景高度模拟了金融分析师日常处理年报等长篇财务文档的工作流程，为模型在长文档理解与定量推理方面的研究提供了标准化的测试平台。

衍生相关工作

围绕DocFinQA数据集，学术界衍生出一系列聚焦长文档金融推理的经典研究工作。例如，基于检索的问答管道研究比较了ColBERT、Sentence-BERT等嵌入模型在长文档中的检索效能；针对长上下文语言模型的评估则涵盖了LLaMA、CodeLLaMA、Mistral及GPT系列模型在零样本与少样本设定下的表现。这些工作深入探讨了模型规模、代码训练数据与指令微调对金融数值推理的影响。此外，迭代处理、系统二注意力等新型长文档处理方法也在该数据集上得到验证与比较，共同推动了金融自然语言处理技术向更实用、更可靠的方向演进。

数据集最近研究