five

FinLoRA

收藏
arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/Open-Finance-Lab/FinLoRA
下载链接
链接失效反馈
官方服务:
资源简介:
FinLoRA是一个开源项目,旨在评估低秩适应(LoRA)方法在金融数据集上的效果。项目包含19个数据集,涵盖广泛的金融应用,其中特别创建了基于150份SEC文件的四个人工智能XBRL分析数据集。项目评估了五种LoRA方法和五种基础LLM模型,并提供了广泛的实验结果,包括准确率、F1分数和BERTScore。LoRA方法在基准测试中平均性能提高了36%,为将LLM应用于金融领域提供了一个经济高效且可扩展的解决方案。
提供机构:
伦斯勒理工学院, 哥伦比亚大学, 史蒂文斯理工学院
创建时间:
2025-05-26
原始信息汇总

FinLoRA数据集概述

动机

  • 采用LoRA微调方法对Llama3和DeepSeek V3/R1模型进行金融领域适配
  • 可训练参数减少至全参数的0.01%,计算成本低于100美元
  • 对比BloombergGPT从头训练方法(需100万GPU小时,成本约300万美元)

金融任务分类

通用金融任务

数据集 类型 测试样本量 指标 来源
FPB 情感分析 970 准确率, F1 HF
FiQA SA 情感分析 234 准确率, F1 HF
TFNS 情感分析 2.4K 准确率, F1 HF
NWGI 情感分析 4.1K 准确率, F1 HF
Headline 标题分析 20.5K 准确率, F1 HF
NER 命名实体识别 3.5K 准确率, F1 HF

XBRL相关任务

XBRL报告

数据集 类型 测试样本量 指标 来源
FiNER-139 标注 100K 准确率, F1 HF
FNXL 标注 1K 准确率, F1 GitHub

XBRL分析

数据集 类型 测试样本量 指标 来源
Financial Math 数学计算 1K 准确率 GitHub
Tags Extraction XBRL提取 150 准确率 -
Values Extraction XBRL提取 150 准确率 -
Formula Calculations XBRL提取 150 准确率 -

训练数据集

数据集 类型 训练样本量 来源
Sentiment 情感分析 76.8K HF
Headline 标题分析 82.2K HF
NER 命名实体识别 13.5K HF
FiNER-139 XBRL标注 900K HF
XBRL Extraction XBRL提取 - -

文件结构

FinLoRA ├── test/ # 测试脚本 ├── data/ # 数据处理 │ ├── gen_fin_data.ipynb │ ├── xbrl_extract.ipynb │ ├── process_*.py │ ├── test/ │ └── train/ └── src/ # 核心代码 ├── LoRAMoE/ # LoRA专家混合 ├── OpenFedLLM/ # 联邦学习 └── finetune/ # 微调实现

应用场景

  1. 跨任务泛化(LoRA专家混合)

    • 采用X-LoRA架构实现多专家路由
  2. 推理阶段性能优化

    • 计划部署SLoRA实现多适配器高效服务
  3. 分布式隐私保护训练

    • 结合零知识证明(ZKP)技术实现联邦学习

参考文献

[1-10] 包含LoRA技术、金融NLP、XBRL处理等领域的10篇关键文献(详见原始文档)

搜集汇总
数据集介绍
main_image_url
构建方式
FinLoRA数据集的构建过程体现了严谨的金融领域知识工程方法论。研究团队系统性地整合了19个金融任务数据集,包括15个公开数据集和4个基于SEC文件的创新XBRL分析数据集。针对XBRL数据的特殊性,研究团队开发了自动化处理流程:从道琼斯30成分股2019-2023年的10-K年报中提取结构化数据,应用五种问答模板生成四类专业任务(标签提取、数值提取、公式构建和公式计算),并采用基于年份和报告轴心的上下文过滤机制确保数据相关性。对于公开数据集,采用标准化预处理流程进行统一标注和质量控制,最终形成覆盖金融情感分析、证书考试、财务报告分析等多维度的基准测试体系。
使用方法
该数据集支持多层次的金融NLP研究应用。基础使用层面,研究者可通过加载预训练的LoRA适配器(如8位LoRA或4位QLoRA)快速评估模型在特定金融任务上的表现。进阶应用支持端到端的工作流:从加载基础大模型(如Llama 3.1 8B)、配置LoRA超参数(rank=8,α=32),到使用1e-4学习率进行领域自适应训练。实验设计推荐采用五折交叉验证,特别对于XBRL分析任务应注意3.8k的平均prompt长度对GPU显存的特殊要求。数据集提供的BERTScore和精确匹配双评估指标,支持同时衡量语义理解和格式合规性,这对财务报告生成等专业任务尤为重要。
背景与挑战
背景概述
FinLoRA数据集由Rensselaer Polytechnic Institute、Columbia University和Stevens Institute of Technology的研究团队于2025年提出,旨在评估低秩适应(LoRA)方法在金融领域任务中的效能。该数据集包含19个金融任务数据集,涵盖通用金融任务和专业级XBRL分析任务,特别针对SEC文件分析创建了四个新颖数据集。FinLoRA通过系统性的实验设计,验证了LoRA方法在金融任务中的显著性能提升(平均36%),为金融领域的大语言模型(LLM)微调提供了重要基准。
当前挑战
FinLoRA面临的挑战主要包括:1) 领域问题挑战:金融数据的高专业性和复杂性(如XBRL分析)要求模型具备深度的领域知识,而通用LLM在此类任务中表现不佳;2) 构建过程挑战:专业金融数据(如SEC文件)的稀缺性和私有性增加了数据收集难度,且XBRL数据的结构化处理需要复杂的预处理流程。此外,不同LoRA变体在金融任务中的性能差异、资源效率平衡以及联邦学习中的隐私保护问题也是重要的研究挑战。
常用场景
经典使用场景
FinLoRA数据集在金融领域的大型语言模型(LLM)微调中展现了卓越的应用潜力。该数据集特别适用于专业级金融任务,如XBRL(可扩展商业报告语言)数据分析、财务报表分析以及金融证书考试模拟。通过低秩适应(LoRA)方法,FinLoRA能够高效地将预训练的通用LLMs适配到高度专业化的金融任务中,显著提升模型在复杂金融场景下的表现。
解决学术问题
FinLoRA数据集解决了金融领域LLMs微调中的多个关键学术问题。首先,它填补了专业金融任务数据集的空白,特别是XBRL分析领域。其次,该数据集通过系统比较不同LoRA变体(如QLoRA、DoRA等)在金融任务中的表现,为参数高效微调方法的选择提供了实证依据。最重要的是,FinLoRA证明了LoRA方法能在保持预训练知识的同时,显著提升模型在专业金融任务上的性能(平均提升36%),解决了传统全参数微调计算成本高昂的问题。
实际应用
在实际应用层面,FinLoRA为金融机构提供了一种经济高效的LLMs适配方案。投资银行可利用其进行SEC文件自动分析,会计师事务所可应用于财务报表的智能审计,金融教育机构则能基于其构建证书考试辅导系统。特别值得注意的是,FinLoRA的联邦学习适配方案解决了金融机构间数据隐私保护的难题,使跨机构协作建模成为可能,这对风险建模等需要多方数据的应用场景尤为重要。
数据集最近研究
最新研究方向
在金融领域,大型语言模型(LLMs)的高效微调技术正成为研究热点。FinLoRA数据集通过整合19个金融任务数据集,包括4个新颖的XBRL分析数据集,为LoRA方法在金融领域的应用提供了全面评估基准。前沿研究聚焦于LoRA变体(如QLoRA、DoRA、rsLoRA)在专业金融任务(如SEC文件分析、CFA考试答题)中的性能优化,实验表明LoRA方法平均提升基准模型性能36%。当前探索方向包括:1)联邦学习框架下隐私保护的分布式LoRA微调;2)XBRL标准化数据结构对模型泛化能力的促进作用;3)量化微调(4-bit QLoRA)在降低GPU内存消耗方面的工程实践。这些进展为资源受限机构部署专业级金融AI提供了可行性方案,特别是在实时财务报告分析等高价值场景展现出变革潜力。
相关研究论文
  • 1
    FinLoRA: Benchmarking LoRA Methods for Fine-Tuning LLMs on Financial Datasets伦斯勒理工学院, 哥伦比亚大学, 史蒂文斯理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作