FinLoRA
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/Open-Finance-Lab/FinLoRA
下载链接
链接失效反馈官方服务:
资源简介:
FinLoRA是一个开源项目,旨在评估低秩适应(LoRA)方法在金融数据集上的效果。项目包含19个数据集,涵盖广泛的金融应用,其中特别创建了基于150份SEC文件的四个人工智能XBRL分析数据集。项目评估了五种LoRA方法和五种基础LLM模型,并提供了广泛的实验结果,包括准确率、F1分数和BERTScore。LoRA方法在基准测试中平均性能提高了36%,为将LLM应用于金融领域提供了一个经济高效且可扩展的解决方案。
提供机构:
伦斯勒理工学院, 哥伦比亚大学, 史蒂文斯理工学院
创建时间:
2025-05-26
原始信息汇总
FinLoRA数据集概述
动机
- 采用LoRA微调方法对Llama3和DeepSeek V3/R1模型进行金融领域适配
- 可训练参数减少至全参数的0.01%,计算成本低于100美元
- 对比BloombergGPT从头训练方法(需100万GPU小时,成本约300万美元)
金融任务分类
通用金融任务
| 数据集 | 类型 | 测试样本量 | 指标 | 来源 |
|---|---|---|---|---|
| FPB | 情感分析 | 970 | 准确率, F1 | HF |
| FiQA SA | 情感分析 | 234 | 准确率, F1 | HF |
| TFNS | 情感分析 | 2.4K | 准确率, F1 | HF |
| NWGI | 情感分析 | 4.1K | 准确率, F1 | HF |
| Headline | 标题分析 | 20.5K | 准确率, F1 | HF |
| NER | 命名实体识别 | 3.5K | 准确率, F1 | HF |
XBRL相关任务
XBRL报告
XBRL分析
| 数据集 | 类型 | 测试样本量 | 指标 | 来源 |
|---|---|---|---|---|
| Financial Math | 数学计算 | 1K | 准确率 | GitHub |
| Tags Extraction | XBRL提取 | 150 | 准确率 | - |
| Values Extraction | XBRL提取 | 150 | 准确率 | - |
| Formula Calculations | XBRL提取 | 150 | 准确率 | - |
训练数据集
| 数据集 | 类型 | 训练样本量 | 来源 |
|---|---|---|---|
| Sentiment | 情感分析 | 76.8K | HF |
| Headline | 标题分析 | 82.2K | HF |
| NER | 命名实体识别 | 13.5K | HF |
| FiNER-139 | XBRL标注 | 900K | HF |
| XBRL Extraction | XBRL提取 | - | - |
文件结构
FinLoRA ├── test/ # 测试脚本 ├── data/ # 数据处理 │ ├── gen_fin_data.ipynb │ ├── xbrl_extract.ipynb │ ├── process_*.py │ ├── test/ │ └── train/ └── src/ # 核心代码 ├── LoRAMoE/ # LoRA专家混合 ├── OpenFedLLM/ # 联邦学习 └── finetune/ # 微调实现
应用场景
-
跨任务泛化(LoRA专家混合)
- 采用X-LoRA架构实现多专家路由
-
推理阶段性能优化
- 计划部署SLoRA实现多适配器高效服务
-
分布式隐私保护训练
- 结合零知识证明(ZKP)技术实现联邦学习
参考文献
[1-10] 包含LoRA技术、金融NLP、XBRL处理等领域的10篇关键文献(详见原始文档)
搜集汇总
数据集介绍

构建方式
FinLoRA数据集的构建过程体现了严谨的金融领域知识工程方法论。研究团队系统性地整合了19个金融任务数据集,包括15个公开数据集和4个基于SEC文件的创新XBRL分析数据集。针对XBRL数据的特殊性,研究团队开发了自动化处理流程:从道琼斯30成分股2019-2023年的10-K年报中提取结构化数据,应用五种问答模板生成四类专业任务(标签提取、数值提取、公式构建和公式计算),并采用基于年份和报告轴心的上下文过滤机制确保数据相关性。对于公开数据集,采用标准化预处理流程进行统一标注和质量控制,最终形成覆盖金融情感分析、证书考试、财务报告分析等多维度的基准测试体系。
使用方法
该数据集支持多层次的金融NLP研究应用。基础使用层面,研究者可通过加载预训练的LoRA适配器(如8位LoRA或4位QLoRA)快速评估模型在特定金融任务上的表现。进阶应用支持端到端的工作流:从加载基础大模型(如Llama 3.1 8B)、配置LoRA超参数(rank=8,α=32),到使用1e-4学习率进行领域自适应训练。实验设计推荐采用五折交叉验证,特别对于XBRL分析任务应注意3.8k的平均prompt长度对GPU显存的特殊要求。数据集提供的BERTScore和精确匹配双评估指标,支持同时衡量语义理解和格式合规性,这对财务报告生成等专业任务尤为重要。
背景与挑战
背景概述
FinLoRA数据集由Rensselaer Polytechnic Institute、Columbia University和Stevens Institute of Technology的研究团队于2025年提出,旨在评估低秩适应(LoRA)方法在金融领域任务中的效能。该数据集包含19个金融任务数据集,涵盖通用金融任务和专业级XBRL分析任务,特别针对SEC文件分析创建了四个新颖数据集。FinLoRA通过系统性的实验设计,验证了LoRA方法在金融任务中的显著性能提升(平均36%),为金融领域的大语言模型(LLM)微调提供了重要基准。
当前挑战
FinLoRA面临的挑战主要包括:1) 领域问题挑战:金融数据的高专业性和复杂性(如XBRL分析)要求模型具备深度的领域知识,而通用LLM在此类任务中表现不佳;2) 构建过程挑战:专业金融数据(如SEC文件)的稀缺性和私有性增加了数据收集难度,且XBRL数据的结构化处理需要复杂的预处理流程。此外,不同LoRA变体在金融任务中的性能差异、资源效率平衡以及联邦学习中的隐私保护问题也是重要的研究挑战。
常用场景
经典使用场景
FinLoRA数据集在金融领域的大型语言模型(LLM)微调中展现了卓越的应用潜力。该数据集特别适用于专业级金融任务,如XBRL(可扩展商业报告语言)数据分析、财务报表分析以及金融证书考试模拟。通过低秩适应(LoRA)方法,FinLoRA能够高效地将预训练的通用LLMs适配到高度专业化的金融任务中,显著提升模型在复杂金融场景下的表现。
解决学术问题
FinLoRA数据集解决了金融领域LLMs微调中的多个关键学术问题。首先,它填补了专业金融任务数据集的空白,特别是XBRL分析领域。其次,该数据集通过系统比较不同LoRA变体(如QLoRA、DoRA等)在金融任务中的表现,为参数高效微调方法的选择提供了实证依据。最重要的是,FinLoRA证明了LoRA方法能在保持预训练知识的同时,显著提升模型在专业金融任务上的性能(平均提升36%),解决了传统全参数微调计算成本高昂的问题。
实际应用
在实际应用层面,FinLoRA为金融机构提供了一种经济高效的LLMs适配方案。投资银行可利用其进行SEC文件自动分析,会计师事务所可应用于财务报表的智能审计,金融教育机构则能基于其构建证书考试辅导系统。特别值得注意的是,FinLoRA的联邦学习适配方案解决了金融机构间数据隐私保护的难题,使跨机构协作建模成为可能,这对风险建模等需要多方数据的应用场景尤为重要。
数据集最近研究
最新研究方向
在金融领域,大型语言模型(LLMs)的高效微调技术正成为研究热点。FinLoRA数据集通过整合19个金融任务数据集,包括4个新颖的XBRL分析数据集,为LoRA方法在金融领域的应用提供了全面评估基准。前沿研究聚焦于LoRA变体(如QLoRA、DoRA、rsLoRA)在专业金融任务(如SEC文件分析、CFA考试答题)中的性能优化,实验表明LoRA方法平均提升基准模型性能36%。当前探索方向包括:1)联邦学习框架下隐私保护的分布式LoRA微调;2)XBRL标准化数据结构对模型泛化能力的促进作用;3)量化微调(4-bit QLoRA)在降低GPU内存消耗方面的工程实践。这些进展为资源受限机构部署专业级金融AI提供了可行性方案,特别是在实时财务报告分析等高价值场景展现出变革潜力。
相关研究论文
- 1FinLoRA: Benchmarking LoRA Methods for Fine-Tuning LLMs on Financial Datasets伦斯勒理工学院, 哥伦比亚大学, 史蒂文斯理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成



