five

financial_reasoning_aggregated

收藏
Hugging Face2025-05-06 更新2025-05-07 收录
下载链接:
https://huggingface.co/datasets/neoyipeng/financial_reasoning_aggregated
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个聚合了金融短语库、FinQA、新闻标题和Twitter数据的多源NLP数据集,用于情感和问答任务的标注。数据集包含了训练集、验证集和测试集,旨在为强化微调(RFT)在金融领域的应用提供多样化的文本来源。
创建时间:
2025-05-02
原始信息汇总

Aggregated Financial Reasoning Dataset for Reinforcement Fine Tuning(RFT) in Finance

数据集概述

  • 目的:聚合具有离散输出的文本源,用于下游RFT,同时通过统一多个公共源保持问题的多样性。
  • 限制:部分数据输入较短(如推文),可能不利于提升模型的推理能力。

数据来源

  • Financial Phrasebank (Malo et al)
  • FinQA
  • Natural Reasoning (Finance)
  • Twitter Financial News Sentiment
  • FinEntity

数据清洗

  • 删除输入或标签为空的行
  • 删除输入("text")长度小于80字符的行
  • 删除输出("label")长度超过20字符的行
  • 具体方法参考build_dataset.ipynb

数据集信息

  • 特征

    • label (string): 情感或QA标签(如“Bullish”或答案ID)
    • text (string): 原始输入文本(短语、推文、标题、QA上下文)
    • prompt (string): 给模型的指令或问题提示
    • task (string): 任务类型(如sentimentqa
    • source (string): 样本来源(FinEntity, financial_phrasebank, finqa, natural reasoning, twitter-financial-news-sentiment
    • entity (string)
  • 数据分割

    • train: 12,275个样本,25,361,337字节
    • validation: 3,069个样本,6,340,850字节
    • test: 3,836个样本,7,925,547字节
  • 下载大小: 18,104,956字节

  • 数据集大小: 39,627,736字节

使用示例

python from datasets import load_dataset

ds = load_dataset("neoyipeng/financial_reasoning_aggregated")

检查第一个示例

print(ds["train"][0])

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合多个公开金融文本资源构建而成,涵盖Financial PhraseBank、FinQA、新闻标题及推特数据等多源信息。构建过程中严格执行数据清洗标准,剔除输入或标签为空值的样本,过滤文本长度低于80字符或标签超过20字符的条目,确保数据质量与适用性。数据集按7:2:1比例划分为训练集、验证集和测试集,便于模型开发与评估。
特点
数据集融合情感分析与问答任务双重特性,包含text、label、prompt、task和source五个核心字段。文本内容覆盖短语、推文、新闻标题及问答上下文等多种形式,标签体系兼容情感极性分类(如'Bullish')和答案标识符两种范式。通过标注任务类型(sentiment/qa)和数据来源(FinEntity/financial_phrasebank等),为研究金融领域多任务学习提供结构化支持。
使用方法
使用HuggingFace datasets库可直接加载数据集,调用load_dataset函数指定路径即可获取按标准划分的数据子集。典型应用场景包括金融文本情感分析模型训练、问答系统开发等。研究人员可通过task字段筛选特定任务数据,结合prompt字段构建指令微调实验,或利用source字段进行跨域泛化能力测试。数据加载后可直接迭代访问样本字典,获取text-label配对进行下游任务处理。
背景与挑战
背景概述
金融推理聚合数据集financial_reasoning_aggregated由研究者neoyipeng于2023年构建,旨在为金融领域的强化微调(RFT)提供多源自然语言处理支持。该数据集整合了Financial PhraseBank、FinQA、新闻标题及推特数据等五大权威来源,涵盖情感分析与问答两大核心任务。通过融合不同模态的金融文本数据,该数据集为提升模型在复杂金融场景下的推理能力提供了重要基准,推动了金融自然语言处理领域向多任务、细粒度分析方向发展。数据集构建过程中严格遵循数据清洗规范,确保样本质量与任务适配性。
当前挑战
该数据集面临的核心挑战体现在任务适配与数据异构两个方面。金融文本特有的专业术语和隐含语义对模型推理能力提出更高要求,短文本(如推特)的信息密度不足可能削弱模型深度推理训练效果。多源数据整合过程中,不同标注体系(如情感标签的差异性)和文本长度分布(从短语到问答对)的离散性为统一建模带来困难。数据清洗时保留语义完整性与过滤低质量样本之间的平衡,以及各子数据集样本量不均衡导致的偏差问题,均为实际应用中的潜在挑战。
常用场景
经典使用场景
在金融自然语言处理领域,financial_reasoning_aggregated数据集通过整合多源异构数据,为模型提供了丰富的语义理解与推理场景。该数据集特别适用于训练金融文本情感分析模型,其中包含的推特短文本和新闻标题能够有效捕捉市场情绪波动,而FinQA部分的问答数据则为复杂金融推理任务提供了结构化训练样本。研究人员可通过统一的标注体系,对比不同金融文本类型在语义表达上的差异。
实际应用
在实际金融科技应用中,该数据集支撑了智能投顾系统的情感分析模块开发,帮助自动识别财报文本中的隐含信号。对冲基金可利用其推特情感数据构建市场情绪指标,而银行机构则能基于FinQA样本训练自动问答系统,用于处理客户复杂的金融咨询。数据中的实体标注还支持了金融知识图谱的构建与补全。
衍生相关工作
基于该数据集衍生的研究主要集中在三个方向:金融领域适配的预训练语言模型(如FinBERT的改进版本)、多任务金融推理框架的设计,以及小样本金融NLP技术。其中最具代表性的是将强化学习与指令微调结合的RFT-Finance模型,该工作通过数据集的prompt字段实现了金融专业术语的精准控制生成。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作