FinLoRA

Name: FinLoRA
Creator: 伦斯勒理工学院, 哥伦比亚大学, 史蒂文斯理工学院
Published: 2025-05-26 18:58:51
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://github.com/Open-Finance-Lab/FinLoRA

下载链接

链接失效反馈

官方服务：

资源简介：

FinLoRA是一个开源项目，旨在评估低秩适应（LoRA）方法在金融数据集上的效果。项目包含19个数据集，涵盖广泛的金融应用，其中特别创建了基于150份SEC文件的四个人工智能XBRL分析数据集。项目评估了五种LoRA方法和五种基础LLM模型，并提供了广泛的实验结果，包括准确率、F1分数和BERTScore。LoRA方法在基准测试中平均性能提高了36%，为将LLM应用于金融领域提供了一个经济高效且可扩展的解决方案。

提供机构：

伦斯勒理工学院, 哥伦比亚大学, 史蒂文斯理工学院

创建时间：

2025-05-26

原始信息汇总

FinLoRA数据集概述

动机

采用LoRA微调方法对Llama3和DeepSeek V3/R1模型进行金融领域适配
可训练参数减少至全参数的0.01%，计算成本低于100美元
对比BloombergGPT从头训练方法（需100万GPU小时，成本约300万美元）

金融任务分类

通用金融任务

数据集	类型	测试样本量	指标	来源
FPB	情感分析	970	准确率, F1	HF
FiQA SA	情感分析	234	准确率, F1	HF
TFNS	情感分析	2.4K	准确率, F1	HF
NWGI	情感分析	4.1K	准确率, F1	HF
Headline	标题分析	20.5K	准确率, F1	HF
NER	命名实体识别	3.5K	准确率, F1	HF

XBRL相关任务

XBRL报告

数据集	类型	测试样本量	指标	来源
FiNER-139	标注	100K	准确率, F1	HF
FNXL	标注	1K	准确率, F1	GitHub

XBRL分析

数据集	类型	测试样本量	指标	来源
Financial Math	数学计算	1K	准确率	GitHub
Tags Extraction	XBRL提取	150	准确率	-
Values Extraction	XBRL提取	150	准确率	-
Formula Calculations	XBRL提取	150	准确率	-

训练数据集

数据集	类型	训练样本量	来源
Sentiment	情感分析	76.8K	HF
Headline	标题分析	82.2K	HF
NER	命名实体识别	13.5K	HF
FiNER-139	XBRL标注	900K	HF
XBRL Extraction	XBRL提取	-	-

文件结构

FinLoRA ├── test/ # 测试脚本 ├── data/ # 数据处理 │ ├── gen_fin_data.ipynb │ ├── xbrl_extract.ipynb │ ├── process_*.py │ ├── test/ │ └── train/ └── src/ # 核心代码 ├── LoRAMoE/ # LoRA专家混合 ├── OpenFedLLM/ # 联邦学习 └── finetune/ # 微调实现

应用场景

跨任务泛化（LoRA专家混合）
- 采用X-LoRA架构实现多专家路由
推理阶段性能优化
- 计划部署SLoRA实现多适配器高效服务
分布式隐私保护训练
- 结合零知识证明(ZKP)技术实现联邦学习

参考文献

[1-10] 包含LoRA技术、金融NLP、XBRL处理等领域的10篇关键文献（详见原始文档）

搜集汇总

数据集介绍

构建方式

FinLoRA数据集的构建过程体现了严谨的金融领域知识工程方法论。研究团队系统性地整合了19个金融任务数据集，包括15个公开数据集和4个基于SEC文件的创新XBRL分析数据集。针对XBRL数据的特殊性，研究团队开发了自动化处理流程：从道琼斯30成分股2019-2023年的10-K年报中提取结构化数据，应用五种问答模板生成四类专业任务（标签提取、数值提取、公式构建和公式计算），并采用基于年份和报告轴心的上下文过滤机制确保数据相关性。对于公开数据集，采用标准化预处理流程进行统一标注和质量控制，最终形成覆盖金融情感分析、证书考试、财务报告分析等多维度的基准测试体系。

使用方法

该数据集支持多层次的金融NLP研究应用。基础使用层面，研究者可通过加载预训练的LoRA适配器（如8位LoRA或4位QLoRA）快速评估模型在特定金融任务上的表现。进阶应用支持端到端的工作流：从加载基础大模型（如Llama 3.1 8B）、配置LoRA超参数（rank=8，α=32），到使用1e-4学习率进行领域自适应训练。实验设计推荐采用五折交叉验证，特别对于XBRL分析任务应注意3.8k的平均prompt长度对GPU显存的特殊要求。数据集提供的BERTScore和精确匹配双评估指标，支持同时衡量语义理解和格式合规性，这对财务报告生成等专业任务尤为重要。

背景与挑战

背景概述

FinLoRA数据集由Rensselaer Polytechnic Institute、Columbia University和Stevens Institute of Technology的研究团队于2025年提出，旨在评估低秩适应（LoRA）方法在金融领域任务中的效能。该数据集包含19个金融任务数据集，涵盖通用金融任务和专业级XBRL分析任务，特别针对SEC文件分析创建了四个新颖数据集。FinLoRA通过系统性的实验设计，验证了LoRA方法在金融任务中的显著性能提升（平均36%），为金融领域的大语言模型（LLM）微调提供了重要基准。

当前挑战

FinLoRA面临的挑战主要包括：1) 领域问题挑战：金融数据的高专业性和复杂性（如XBRL分析）要求模型具备深度的领域知识，而通用LLM在此类任务中表现不佳；2) 构建过程挑战：专业金融数据（如SEC文件）的稀缺性和私有性增加了数据收集难度，且XBRL数据的结构化处理需要复杂的预处理流程。此外，不同LoRA变体在金融任务中的性能差异、资源效率平衡以及联邦学习中的隐私保护问题也是重要的研究挑战。

常用场景

经典使用场景

FinLoRA数据集在金融领域的大型语言模型（LLM）微调中展现了卓越的应用潜力。该数据集特别适用于专业级金融任务，如XBRL（可扩展商业报告语言）数据分析、财务报表分析以及金融证书考试模拟。通过低秩适应（LoRA）方法，FinLoRA能够高效地将预训练的通用LLMs适配到高度专业化的金融任务中，显著提升模型在复杂金融场景下的表现。

解决学术问题

FinLoRA数据集解决了金融领域LLMs微调中的多个关键学术问题。首先，它填补了专业金融任务数据集的空白，特别是XBRL分析领域。其次，该数据集通过系统比较不同LoRA变体（如QLoRA、DoRA等）在金融任务中的表现，为参数高效微调方法的选择提供了实证依据。最重要的是，FinLoRA证明了LoRA方法能在保持预训练知识的同时，显著提升模型在专业金融任务上的性能（平均提升36%），解决了传统全参数微调计算成本高昂的问题。

实际应用

在实际应用层面，FinLoRA为金融机构提供了一种经济高效的LLMs适配方案。投资银行可利用其进行SEC文件自动分析，会计师事务所可应用于财务报表的智能审计，金融教育机构则能基于其构建证书考试辅导系统。特别值得注意的是，FinLoRA的联邦学习适配方案解决了金融机构间数据隐私保护的难题，使跨机构协作建模成为可能，这对风险建模等需要多方数据的应用场景尤为重要。

数据集最近研究