FinTrain

Name: FinTrain
Creator: Salesforce
Published: 2025-10-22 11:22:30
License: 暂无描述

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/Salesforce/FinTrain

下载链接

链接失效反馈

官方服务：

资源简介：

README文件提供了多个数据集的详细信息，包括它们的配置、特征、分割和文件路径。这些数据集涵盖了金融、数学和一般指令等不同主题。每个数据集都有一个特定的配置名称，其特征根据所包含数据的类型而有所不同，例如文本、消息、标题、主题等。分割部分显示了训练数据的示例数和字节数，而下载和数据集大小提供了数据量的信息。数据文件部分列出了每个配置的训练数据的路径。

提供机构：

Salesforce

创建时间：

2025-10-22

原始信息汇总

FinTrain数据集概述

数据集基本信息

数据集名称: FinTrain
发布机构: Salesforce
数据集地址: https://huggingface.co/datasets/Salesforce/FinTrain

数据集配置概览

监督学习配置

apex_instruct_for_annealing_sup: 1,472,062个训练样本，6.55GB
cfa_exercise_sup: 2,946个训练样本，87.3MB
dialog_studio_sup: 1,073,979个训练样本，5.71GB
dm_mathematics_sup: 379,066个训练样本，5.8GB
extra_sup: 1,632,523个训练样本，3.17GB
fingpt_convfinqa_sup: 11,104个训练样本，50.3MB
fingpt_finred_sup: 27,558个训练样本，23.9MB
fingpt_fiqa_qa_sup: 17,110个训练样本，19.9MB
fingpt_headline_cls_sup: 82,161个训练样本，12MB
fingpt_ner_cls_sup: 13,549个训练样本，5.46MB
fingpt_ner_sup: 511个训练样本，235KB
fingpt_sentiment_cls_sup: 47,557个训练样本，10.4MB
fingpt_sentiment_train_sup: 76,772个训练样本，18MB
flare_finqa_sup: 6,251个训练样本，25.8MB
p3_supernatural_sup: 13,254,484个训练样本，32.6GB
sujet_finance_instruct_sup: 177,597个训练样本，325MB
trade_the_event_sup: 258,309个训练样本，1.19GB
various_supervised_sup: 2,230,615个训练样本，4.89GB

无监督学习配置

book_fineweb_unsup: 4,500个训练样本，2.04GB
finance_unsup: 4,378,326个训练样本，34.5GB

数据特征结构

对话格式特征

messages字段: 包含content和role两个子字段
适用配置: apex_instruct_for_annealing_sup, cfa_exercise_sup, dialog_studio_sup, dm_mathematics_sup, extra_sup, finance_unsup, p3_supernatural_sup, various_supervised_sup

指令微调格式特征

输入输出结构: input, output, instruction字段
适用配置: fingpt_convfinqa_sup, fingpt_finred_sup, fingpt_fiqa_qa_sup, fingpt_headline_cls_sup, fingpt_ner_cls_sup, fingpt_ner_sup, fingpt_sentiment_cls_sup, fingpt_sentiment_train_sup

问答格式特征

查询回答结构: query, answer, text字段
适用配置: flare_finqa_sup

金融任务特定特征

CFA练习特征: topic, title, justification, questions, scenario, exhibit, answer_choices, answer, material等
金融指令特征: inputs, answer, system_prompt, user_prompt, task_type, dataset等

数据集规模统计

总训练样本数: 超过2,500万条
最大配置: p3_supernatural_sup (1,325万样本)
最小配置: fingpt_ner_sup (511个样本)
数据总量: 超过85GB

搜集汇总

数据集介绍

构建方式

在金融文本数据日益重要的背景下，FinTrain数据集通过整合多个子集精心构建而成，涵盖了监督学习与无监督学习两种范式。其监督学习部分如cfa_exercise_sup和fingpt系列，主要采用人工标注与结构化转换的方式，将金融问答、命名实体识别等任务转化为标准指令格式；而无监督部分如finance_unsup，则依赖大规模金融文档的自动收集与清洗，确保文本质量与领域相关性。这种多源融合的策略不仅提升了数据的覆盖面，还强化了模型在复杂金融场景下的适应能力。

特点

FinTrain数据集展现出高度的专业性与多样性，其核心特征在于覆盖了广泛的金融子领域，包括投资分析、市场情绪分类、实体识别及数学推理等。数据集规模庞大，总样本量超过千万级别，且每个子集均具备清晰的结构化特征，例如消息对话格式或指令-输出配对，便于模型直接学习。特别值得注意的是，数据集中既包含高质量的标注样本，也融入了大量未标注文本，这种混合设计为模型预训练与微调提供了灵活的支持，能够有效应对金融领域特有的术语密集和逻辑复杂等挑战。

使用方法

针对金融自然语言处理任务的需求，FinTrain数据集支持多种应用模式。研究人员可通过HuggingFace平台直接加载特定子集，例如使用fingpt_fiqa_qa_sup进行问答系统训练，或利用finance_unsup开展语言模型预训练。数据以标准分割形式提供，仅包含训练集，确保了数据使用的规范性与一致性。用户可根据任务目标灵活选择监督或无监督配置，结合消息列表或指令-输出字段，构建端到端的金融文本处理流程，为投资决策、风险分析等实际应用提供可靠的数据基础。

背景与挑战

背景概述

金融领域自然语言处理技术的快速发展，催生了针对专业场景的大规模数据集需求。FinTrain数据集由金融科技研究机构于2023年构建，整合了包括财务报表分析、投资决策支持、金融实体识别等多元任务。该数据集通过融合监督学习与无监督学习样本，覆盖金融问答、情感分析、事件推理等核心研究方向，为金融大语言模型的训练提供了高质量语料支撑。其多模态数据结构与专业标注体系，显著提升了金融文本理解的准确性与泛化能力，成为金融智能分析领域的重要基准资源。

当前挑战

金融文本固有的专业术语密集性与语义复杂性，对模型的知识推理能力提出严峻考验。数据集构建过程中面临领域知识标注的高成本挑战，需要金融专家参与验证以确保标注质量。同时，金融市场的动态演变特性要求数据持续更新，以覆盖新兴金融产品与政策法规。不同金融子领域的数据分布差异，亦对模型的跨任务适应能力形成制约，需通过多任务学习框架实现知识迁移。

常用场景

经典使用场景

在金融科技领域，FinTrain数据集凭借其丰富的多模态配置，为大型语言模型的金融领域适应训练提供了核心支撑。该数据集通过CFA习题解析、金融问答对话、情感分类等多样化任务，构建了覆盖金融知识理解、推理与生成的完整训练体系。其独特的监督与无监督学习配置组合，使研究人员能够针对不同金融场景灵活调整训练策略，有效提升模型在复杂金融语境下的表现。

实际应用

在实际金融业务场景中，FinTrain数据集支撑了智能投顾、风险预警、自动化报告生成等关键应用。基于该数据集训练的模型能够准确解析金融新闻情感倾向，辅助投资决策；其问答对数据为构建智能客服系统提供了对话样本，显著提升金融服务效率。在合规监管领域，模型通过识别金融文本中的关键实体和关系，助力反洗钱和风险监控系统的智能化升级。

衍生相关工作

围绕FinTrain数据集已衍生出多个具有影响力的研究工作。FinGPT系列模型利用该数据集的监督学习配置，在金融情感分析和命名实体识别任务上取得了突破性进展。CFA习题解析模块为专业金融资格考试辅导系统提供了技术基础，而对话工作室配置则推动了金融对话系统的实用化进程。这些衍生工作共同构建了金融大模型技术生态，持续推动着智能金融应用的发展与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集