FinTrain
收藏Hugging Face2025-10-22 更新2025-10-22 收录
下载链接:
https://huggingface.co/datasets/Salesforce/FinTrain
下载链接
链接失效反馈官方服务:
资源简介:
README文件提供了多个数据集的详细信息,包括它们的配置、特征、分割和文件路径。这些数据集涵盖了金融、数学和一般指令等不同主题。每个数据集都有一个特定的配置名称,其特征根据所包含数据的类型而有所不同,例如文本、消息、标题、主题等。分割部分显示了训练数据的示例数和字节数,而下载和数据集大小提供了数据量的信息。数据文件部分列出了每个配置的训练数据的路径。
提供机构:
Salesforce
创建时间:
2025-10-22
原始信息汇总
FinTrain数据集概述
数据集基本信息
- 数据集名称: FinTrain
- 发布机构: Salesforce
- 数据集地址: https://huggingface.co/datasets/Salesforce/FinTrain
数据集配置概览
监督学习配置
- apex_instruct_for_annealing_sup: 1,472,062个训练样本,6.55GB
- cfa_exercise_sup: 2,946个训练样本,87.3MB
- dialog_studio_sup: 1,073,979个训练样本,5.71GB
- dm_mathematics_sup: 379,066个训练样本,5.8GB
- extra_sup: 1,632,523个训练样本,3.17GB
- fingpt_convfinqa_sup: 11,104个训练样本,50.3MB
- fingpt_finred_sup: 27,558个训练样本,23.9MB
- fingpt_fiqa_qa_sup: 17,110个训练样本,19.9MB
- fingpt_headline_cls_sup: 82,161个训练样本,12MB
- fingpt_ner_cls_sup: 13,549个训练样本,5.46MB
- fingpt_ner_sup: 511个训练样本,235KB
- fingpt_sentiment_cls_sup: 47,557个训练样本,10.4MB
- fingpt_sentiment_train_sup: 76,772个训练样本,18MB
- flare_finqa_sup: 6,251个训练样本,25.8MB
- p3_supernatural_sup: 13,254,484个训练样本,32.6GB
- sujet_finance_instruct_sup: 177,597个训练样本,325MB
- trade_the_event_sup: 258,309个训练样本,1.19GB
- various_supervised_sup: 2,230,615个训练样本,4.89GB
无监督学习配置
- book_fineweb_unsup: 4,500个训练样本,2.04GB
- finance_unsup: 4,378,326个训练样本,34.5GB
数据特征结构
对话格式特征
- messages字段: 包含content和role两个子字段
- 适用配置: apex_instruct_for_annealing_sup, cfa_exercise_sup, dialog_studio_sup, dm_mathematics_sup, extra_sup, finance_unsup, p3_supernatural_sup, various_supervised_sup
指令微调格式特征
- 输入输出结构: input, output, instruction字段
- 适用配置: fingpt_convfinqa_sup, fingpt_finred_sup, fingpt_fiqa_qa_sup, fingpt_headline_cls_sup, fingpt_ner_cls_sup, fingpt_ner_sup, fingpt_sentiment_cls_sup, fingpt_sentiment_train_sup
问答格式特征
- 查询回答结构: query, answer, text字段
- 适用配置: flare_finqa_sup
金融任务特定特征
- CFA练习特征: topic, title, justification, questions, scenario, exhibit, answer_choices, answer, material等
- 金融指令特征: inputs, answer, system_prompt, user_prompt, task_type, dataset等
数据集规模统计
- 总训练样本数: 超过2,500万条
- 最大配置: p3_supernatural_sup (1,325万样本)
- 最小配置: fingpt_ner_sup (511个样本)
- 数据总量: 超过85GB
搜集汇总
数据集介绍

构建方式
在金融文本数据日益重要的背景下,FinTrain数据集通过整合多个子集精心构建而成,涵盖了监督学习与无监督学习两种范式。其监督学习部分如cfa_exercise_sup和fingpt系列,主要采用人工标注与结构化转换的方式,将金融问答、命名实体识别等任务转化为标准指令格式;而无监督部分如finance_unsup,则依赖大规模金融文档的自动收集与清洗,确保文本质量与领域相关性。这种多源融合的策略不仅提升了数据的覆盖面,还强化了模型在复杂金融场景下的适应能力。
特点
FinTrain数据集展现出高度的专业性与多样性,其核心特征在于覆盖了广泛的金融子领域,包括投资分析、市场情绪分类、实体识别及数学推理等。数据集规模庞大,总样本量超过千万级别,且每个子集均具备清晰的结构化特征,例如消息对话格式或指令-输出配对,便于模型直接学习。特别值得注意的是,数据集中既包含高质量的标注样本,也融入了大量未标注文本,这种混合设计为模型预训练与微调提供了灵活的支持,能够有效应对金融领域特有的术语密集和逻辑复杂等挑战。
使用方法
针对金融自然语言处理任务的需求,FinTrain数据集支持多种应用模式。研究人员可通过HuggingFace平台直接加载特定子集,例如使用fingpt_fiqa_qa_sup进行问答系统训练,或利用finance_unsup开展语言模型预训练。数据以标准分割形式提供,仅包含训练集,确保了数据使用的规范性与一致性。用户可根据任务目标灵活选择监督或无监督配置,结合消息列表或指令-输出字段,构建端到端的金融文本处理流程,为投资决策、风险分析等实际应用提供可靠的数据基础。
背景与挑战
背景概述
金融领域自然语言处理技术的快速发展,催生了针对专业场景的大规模数据集需求。FinTrain数据集由金融科技研究机构于2023年构建,整合了包括财务报表分析、投资决策支持、金融实体识别等多元任务。该数据集通过融合监督学习与无监督学习样本,覆盖金融问答、情感分析、事件推理等核心研究方向,为金融大语言模型的训练提供了高质量语料支撑。其多模态数据结构与专业标注体系,显著提升了金融文本理解的准确性与泛化能力,成为金融智能分析领域的重要基准资源。
当前挑战
金融文本固有的专业术语密集性与语义复杂性,对模型的知识推理能力提出严峻考验。数据集构建过程中面临领域知识标注的高成本挑战,需要金融专家参与验证以确保标注质量。同时,金融市场的动态演变特性要求数据持续更新,以覆盖新兴金融产品与政策法规。不同金融子领域的数据分布差异,亦对模型的跨任务适应能力形成制约,需通过多任务学习框架实现知识迁移。
常用场景
经典使用场景
在金融科技领域,FinTrain数据集凭借其丰富的多模态配置,为大型语言模型的金融领域适应训练提供了核心支撑。该数据集通过CFA习题解析、金融问答对话、情感分类等多样化任务,构建了覆盖金融知识理解、推理与生成的完整训练体系。其独特的监督与无监督学习配置组合,使研究人员能够针对不同金融场景灵活调整训练策略,有效提升模型在复杂金融语境下的表现。
实际应用
在实际金融业务场景中,FinTrain数据集支撑了智能投顾、风险预警、自动化报告生成等关键应用。基于该数据集训练的模型能够准确解析金融新闻情感倾向,辅助投资决策;其问答对数据为构建智能客服系统提供了对话样本,显著提升金融服务效率。在合规监管领域,模型通过识别金融文本中的关键实体和关系,助力反洗钱和风险监控系统的智能化升级。
衍生相关工作
围绕FinTrain数据集已衍生出多个具有影响力的研究工作。FinGPT系列模型利用该数据集的监督学习配置,在金融情感分析和命名实体识别任务上取得了突破性进展。CFA习题解析模块为专业金融资格考试辅导系统提供了技术基础,而对话工作室配置则推动了金融对话系统的实用化进程。这些衍生工作共同构建了金融大模型技术生态,持续推动着智能金融应用的发展与创新。
以上内容由遇见数据集搜集并总结生成



