financial_reasoning_aggregated
收藏Hugging Face2025-05-06 更新2025-05-07 收录
下载链接:
https://huggingface.co/datasets/neoyipeng/financial_reasoning_aggregated
下载链接
链接失效反馈官方服务:
资源简介:
这是一个聚合了金融短语库、FinQA、新闻标题和Twitter数据的多源NLP数据集,用于情感和问答任务的标注。数据集包含了训练集、验证集和测试集,旨在为强化微调(RFT)在金融领域的应用提供多样化的文本来源。
创建时间:
2025-05-02
原始信息汇总
Aggregated Financial Reasoning Dataset for Reinforcement Fine Tuning(RFT) in Finance
数据集概述
- 目的:聚合具有离散输出的文本源,用于下游RFT,同时通过统一多个公共源保持问题的多样性。
- 限制:部分数据输入较短(如推文),可能不利于提升模型的推理能力。
数据来源
- Financial Phrasebank (Malo et al)
- FinQA
- Natural Reasoning (Finance)
- Twitter Financial News Sentiment
- FinEntity
数据清洗
- 删除输入或标签为空的行
- 删除输入("text")长度小于80字符的行
- 删除输出("label")长度超过20字符的行
- 具体方法参考
build_dataset.ipynb
数据集信息
-
特征:
label(string): 情感或QA标签(如“Bullish”或答案ID)text(string): 原始输入文本(短语、推文、标题、QA上下文)prompt(string): 给模型的指令或问题提示task(string): 任务类型(如sentiment或qa)source(string): 样本来源(FinEntity,financial_phrasebank,finqa,natural reasoning,twitter-financial-news-sentiment)entity(string)
-
数据分割:
train: 12,275个样本,25,361,337字节validation: 3,069个样本,6,340,850字节test: 3,836个样本,7,925,547字节
-
下载大小: 18,104,956字节
-
数据集大小: 39,627,736字节
使用示例
python from datasets import load_dataset
ds = load_dataset("neoyipeng/financial_reasoning_aggregated")
检查第一个示例
print(ds["train"][0])
搜集汇总
数据集介绍

构建方式
该数据集通过整合多个公开金融文本资源构建而成,涵盖Financial PhraseBank、FinQA、新闻标题及推特数据等多源信息。构建过程中严格执行数据清洗标准,剔除输入或标签为空值的样本,过滤文本长度低于80字符或标签超过20字符的条目,确保数据质量与适用性。数据集按7:2:1比例划分为训练集、验证集和测试集,便于模型开发与评估。
特点
数据集融合情感分析与问答任务双重特性,包含text、label、prompt、task和source五个核心字段。文本内容覆盖短语、推文、新闻标题及问答上下文等多种形式,标签体系兼容情感极性分类(如'Bullish')和答案标识符两种范式。通过标注任务类型(sentiment/qa)和数据来源(FinEntity/financial_phrasebank等),为研究金融领域多任务学习提供结构化支持。
使用方法
使用HuggingFace datasets库可直接加载数据集,调用load_dataset函数指定路径即可获取按标准划分的数据子集。典型应用场景包括金融文本情感分析模型训练、问答系统开发等。研究人员可通过task字段筛选特定任务数据,结合prompt字段构建指令微调实验,或利用source字段进行跨域泛化能力测试。数据加载后可直接迭代访问样本字典,获取text-label配对进行下游任务处理。
背景与挑战
背景概述
金融推理聚合数据集financial_reasoning_aggregated由研究者neoyipeng于2023年构建,旨在为金融领域的强化微调(RFT)提供多源自然语言处理支持。该数据集整合了Financial PhraseBank、FinQA、新闻标题及推特数据等五大权威来源,涵盖情感分析与问答两大核心任务。通过融合不同模态的金融文本数据,该数据集为提升模型在复杂金融场景下的推理能力提供了重要基准,推动了金融自然语言处理领域向多任务、细粒度分析方向发展。数据集构建过程中严格遵循数据清洗规范,确保样本质量与任务适配性。
当前挑战
该数据集面临的核心挑战体现在任务适配与数据异构两个方面。金融文本特有的专业术语和隐含语义对模型推理能力提出更高要求,短文本(如推特)的信息密度不足可能削弱模型深度推理训练效果。多源数据整合过程中,不同标注体系(如情感标签的差异性)和文本长度分布(从短语到问答对)的离散性为统一建模带来困难。数据清洗时保留语义完整性与过滤低质量样本之间的平衡,以及各子数据集样本量不均衡导致的偏差问题,均为实际应用中的潜在挑战。
常用场景
经典使用场景
在金融自然语言处理领域,financial_reasoning_aggregated数据集通过整合多源异构数据,为模型提供了丰富的语义理解与推理场景。该数据集特别适用于训练金融文本情感分析模型,其中包含的推特短文本和新闻标题能够有效捕捉市场情绪波动,而FinQA部分的问答数据则为复杂金融推理任务提供了结构化训练样本。研究人员可通过统一的标注体系,对比不同金融文本类型在语义表达上的差异。
实际应用
在实际金融科技应用中,该数据集支撑了智能投顾系统的情感分析模块开发,帮助自动识别财报文本中的隐含信号。对冲基金可利用其推特情感数据构建市场情绪指标,而银行机构则能基于FinQA样本训练自动问答系统,用于处理客户复杂的金融咨询。数据中的实体标注还支持了金融知识图谱的构建与补全。
衍生相关工作
基于该数据集衍生的研究主要集中在三个方向:金融领域适配的预训练语言模型(如FinBERT的改进版本)、多任务金融推理框架的设计,以及小样本金融NLP技术。其中最具代表性的是将强化学习与指令微调结合的RFT-Finance模型,该工作通过数据集的prompt字段实现了金融专业术语的精准控制生成。
以上内容由遇见数据集搜集并总结生成



