FinNLI

Name: FinNLI
Creator: 牛津大学，摩根大通人工智能研究
Published: 2025-04-23 02:25:17
License: 暂无描述

arXiv2025-04-23 更新2025-04-25 收录

下载链接：

http://arxiv.org/abs/2504.16188v1

下载链接

链接失效反馈

官方服务：

资源简介：

FinNLI是一个针对金融自然语言推理任务的新型数据集，由牛津大学和摩根大通人工智能研究共同创建。该数据集包含21304对前提-假设对，涵盖了来自不同金融文体的真实世界文本，如SEC文件、年度报告和收益电话会议记录。数据集的构建过程注重多样性，减少了人为关联，包含了具有挑战性的实例，并由金融专家进行了高质量标注。该数据集旨在评估和提升语言模型在理解金融信息和进行推理方面的能力。

FinNLI is a novel dataset for financial natural language inference tasks, co-developed by the University of Oxford and J.P. Morgan AI Research. This dataset comprises 21,304 premise-hypothesis pairs, covering real-world texts from diverse financial genres including SEC filings, annual reports, and earnings call transcripts. The dataset construction process prioritizes diversity, minimizes artificial spurious associations, incorporates challenging instances, and undergoes high-quality annotation by financial domain experts. This dataset is designed to evaluate and enhance the capabilities of language models in understanding financial information and performing reasoning tasks.

提供机构：

牛津大学，摩根大通人工智能研究

创建时间：

2025-04-23

搜集汇总

数据集介绍

构建方式

FinNLI数据集的构建采用了多阶段流程以确保数据质量和多样性。首先，从真实金融文档（如SEC文件、年度报告和财报电话会议记录）中采样前提句，覆盖多种金融文本类型以增强风格多样性。随后利用GPT-4和Llama 3.1 70B两种大语言模型生成假设-标签对，通过角色扮演和风格控制（如金融分析师、社交媒体风格等）促进假设多样性。为减少伪相关性，采用z-filtering算法过滤与标签高相关但无关任务的特征。最后，通过通用领域NLI模型反馈和金融专家多轮标注（四轮迭代，每轮三位专家审核）构建高质量测试集，确保标注者间Fleiss-κ达88.31%。

使用方法

该数据集支持三种主要应用范式：1）零样本评估：直接测试预训练模型（如DeBERTa-V3-NLI）在金融领域的跨域性能，其准确率较MNLI下降21.6个百分点；2）微调训练：以16,200平衡样本微调PLMs（如RoBERTa-Large），宏F1可达74.57%；3）大模型提示工程：采用思维链提示（CoT）可使Llama 3.1 8B性能提升7%。使用时需注意测试集包含GPT-4与Llama生成样本的混合，建议分别评估以分析模型偏差。对于领域适应研究，推荐结合z-filtered训练集与含低置信度样本的测试子集以检验鲁棒性。

背景与挑战

背景概述

FinNLI是由JPMorgan AI Research与牛津大学的研究人员于2025年推出的金融领域自然语言推理基准数据集，旨在填补金融文本理解任务中缺乏专业评估工具的空白。该数据集包含21,304个前提-假设对，涵盖SEC文件、年度报告和财报电话会议记录等多类型金融文本，通过专家标注的3,304条测试实例确保数据质量。作为首个专注于金融NLI任务的资源，FinNLI揭示了通用领域模型在专业领域迁移时性能显著下降的现象（如DeBERTa-V3-NLI准确率从91.1%降至68.31%），为金融NLP研究提供了关键评估基准。

当前挑战

FinNLI面临的核心挑战体现在两个方面：领域问题层面，金融文本特有的术语体系（如EBITDA指标）和量化推理需求（如年报数据对比）导致通用NLI模型出现平均15%的性能衰减；构建过程层面，需解决三大难题——1)金融文档中不完整句段（占原始样本23%）的清洗问题，2)避免LLM生成假设时添加无关信息引发的标签噪声（34%中性假设被错误标注为蕴含），3)通过z-filtering算法消除词汇重叠等伪相关性特征（使特征z值从94.69降至25.82）。这些挑战使得当前最优模型Llama 3.1-70B的F1分数仍停留在78.62%。

常用场景

经典使用场景

FinNLI数据集在金融自然语言推理领域具有重要应用价值，其经典使用场景包括金融文档的语义关系分析、风险预警模型的构建以及自动化财务报告的生成。通过提供多样化的前提-假设对，FinNLI能够有效评估模型在复杂金融语境下的推理能力，特别是在涉及SEC文件、年度报告和收益电话会议记录等多类型金融文本时。

解决学术问题

FinNLI解决了金融领域自然语言推理研究中的数据稀缺问题，为评估和提升语言模型在专业领域的推理能力提供了基准。该数据集通过精心设计的生成流程，减少了虚假相关性，并包含专家标注的高质量测试集，显著提升了模型在金融术语理解、数学推理和时序分析等复杂任务中的表现。

实际应用

在实际应用中，FinNLI可支持金融机构构建智能问答系统、自动化财务分析工具以及风险监测平台。例如，通过分析企业年报中的现金流描述与市场风险假设之间的逻辑关系，模型能够生成更准确的财务压力预警，为投资决策提供数据支持。

数据集最近研究