financial_reasoning_aggregated

Hugging Face2025-05-06 更新2025-05-07 收录

下载链接：

https://huggingface.co/datasets/neoyipeng/financial_reasoning_aggregated

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个聚合了金融短语库、FinQA、新闻标题和Twitter数据的多源NLP数据集，用于情感和问答任务的标注。数据集包含了训练集、验证集和测试集，旨在为强化微调（RFT）在金融领域的应用提供多样化的文本来源。

创建时间：

2025-05-02

原始信息汇总

Aggregated Financial Reasoning Dataset for Reinforcement Fine Tuning(RFT) in Finance

数据集概述

目的：聚合具有离散输出的文本源，用于下游RFT，同时通过统一多个公共源保持问题的多样性。
限制：部分数据输入较短（如推文），可能不利于提升模型的推理能力。

数据来源

Financial Phrasebank (Malo et al)
FinQA
Natural Reasoning (Finance)
Twitter Financial News Sentiment
FinEntity

数据清洗

删除输入或标签为空的行
删除输入("text")长度小于80字符的行
删除输出("label")长度超过20字符的行
具体方法参考build_dataset.ipynb

数据集信息

特征：
- label (string): 情感或QA标签（如“Bullish”或答案ID）
- text (string): 原始输入文本（短语、推文、标题、QA上下文）
- prompt (string): 给模型的指令或问题提示
- task (string): 任务类型（如sentiment或qa）
- source (string): 样本来源（FinEntity, financial_phrasebank, finqa, natural reasoning, twitter-financial-news-sentiment）
- entity (string)
数据分割：
- train: 12,275个样本，25,361,337字节
- validation: 3,069个样本，6,340,850字节
- test: 3,836个样本，7,925,547字节
下载大小: 18,104,956字节
数据集大小: 39,627,736字节

使用示例

python from datasets import load_dataset

ds = load_dataset("neoyipeng/financial_reasoning_aggregated")

检查第一个示例

print(ds["train"][0])

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个公开金融文本资源构建而成，涵盖Financial PhraseBank、FinQA、新闻标题及推特数据等多源信息。构建过程中严格执行数据清洗标准，剔除输入或标签为空值的样本，过滤文本长度低于80字符或标签超过20字符的条目，确保数据质量与适用性。数据集按7:2:1比例划分为训练集、验证集和测试集，便于模型开发与评估。

特点

数据集融合情感分析与问答任务双重特性，包含text、label、prompt、task和source五个核心字段。文本内容覆盖短语、推文、新闻标题及问答上下文等多种形式，标签体系兼容情感极性分类（如'Bullish'）和答案标识符两种范式。通过标注任务类型（sentiment/qa）和数据来源（FinEntity/financial_phrasebank等），为研究金融领域多任务学习提供结构化支持。

使用方法

使用HuggingFace datasets库可直接加载数据集，调用load_dataset函数指定路径即可获取按标准划分的数据子集。典型应用场景包括金融文本情感分析模型训练、问答系统开发等。研究人员可通过task字段筛选特定任务数据，结合prompt字段构建指令微调实验，或利用source字段进行跨域泛化能力测试。数据加载后可直接迭代访问样本字典，获取text-label配对进行下游任务处理。

背景与挑战

背景概述

金融推理聚合数据集financial_reasoning_aggregated由研究者neoyipeng于2023年构建，旨在为金融领域的强化微调（RFT）提供多源自然语言处理支持。该数据集整合了Financial PhraseBank、FinQA、新闻标题及推特数据等五大权威来源，涵盖情感分析与问答两大核心任务。通过融合不同模态的金融文本数据，该数据集为提升模型在复杂金融场景下的推理能力提供了重要基准，推动了金融自然语言处理领域向多任务、细粒度分析方向发展。数据集构建过程中严格遵循数据清洗规范，确保样本质量与任务适配性。

当前挑战

该数据集面临的核心挑战体现在任务适配与数据异构两个方面。金融文本特有的专业术语和隐含语义对模型推理能力提出更高要求，短文本（如推特）的信息密度不足可能削弱模型深度推理训练效果。多源数据整合过程中，不同标注体系（如情感标签的差异性）和文本长度分布（从短语到问答对）的离散性为统一建模带来困难。数据清洗时保留语义完整性与过滤低质量样本之间的平衡，以及各子数据集样本量不均衡导致的偏差问题，均为实际应用中的潜在挑战。

常用场景

经典使用场景

在金融自然语言处理领域，financial_reasoning_aggregated数据集通过整合多源异构数据，为模型提供了丰富的语义理解与推理场景。该数据集特别适用于训练金融文本情感分析模型，其中包含的推特短文本和新闻标题能够有效捕捉市场情绪波动，而FinQA部分的问答数据则为复杂金融推理任务提供了结构化训练样本。研究人员可通过统一的标注体系，对比不同金融文本类型在语义表达上的差异。

实际应用

在实际金融科技应用中，该数据集支撑了智能投顾系统的情感分析模块开发，帮助自动识别财报文本中的隐含信号。对冲基金可利用其推特情感数据构建市场情绪指标，而银行机构则能基于FinQA样本训练自动问答系统，用于处理客户复杂的金融咨询。数据中的实体标注还支持了金融知识图谱的构建与补全。

衍生相关工作

基于该数据集衍生的研究主要集中在三个方向：金融领域适配的预训练语言模型（如FinBERT的改进版本）、多任务金融推理框架的设计，以及小样本金融NLP技术。其中最具代表性的是将强化学习与指令微调结合的RFT-Finance模型，该工作通过数据集的prompt字段实现了金融专业术语的精准控制生成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集