five

19k sample reasoning dataset

收藏
arXiv2025-09-18 更新2025-11-21 收录
下载链接:
https://hf-mirror.com/datasets/Akhil-Theerthala/Kuvera-PersonalFinance-V2.1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集包含19,000个样本,用于训练能够提供个性化财务建议的模型。数据集涵盖了个人财务领域的各个方面,如债务管理、退休规划、税务规划、投资和财富增长、预算和现金流管理、保险和风险管理、储蓄和紧急基金、遗产规划和遗产。数据集是通过从Reddit等平台上收集真实的个人财务问题,并进行过滤和分类生成的。数据集的创建过程包括查询分析、上下文分析、心理线索识别和响应生成四个主要阶段。每个阶段都经过大型语言模型评审团的验证,以确保生成的样本质量。该数据集旨在解决现有模型在个性化财务建议方面的局限性,通过整合财务、行为和心理信息,提高模型的准确性和可靠性。

This dataset contains 19,000 samples for training models capable of delivering personalized financial advice. It covers all aspects of personal finance, including debt management, retirement planning, tax planning, investment and wealth growth, budgeting and cash flow management, insurance and risk management, savings and emergency funds, estate planning and inheritance. The dataset was generated by collecting real personal finance questions from platforms such as Reddit, followed by filtering and classification. Its creation involves four core stages: query analysis, context analysis, psychological cue identification, and response generation. Each stage has been validated by a panel of large language models to ensure the quality of the generated samples. This dataset is designed to address the limitations of existing models for personalized financial advice, by integrating financial, behavioral and psychological information to enhance the accuracy and reliability of the models.
提供机构:
Perfios Software Solutions
创建时间:
2025-09-18
搜集汇总
数据集介绍
main_image_url
构建方式
在个人金融智能体研究领域,传统方法常因架构复杂性与高昂维护成本受限。本数据集通过模块化框架构建,首先从Reddit平台采集40.5万条真实金融咨询问题,经主题筛选与语义去重后保留19k样本。采用四阶段思维链生成流程:查询解析阶段提炼用户核心诉求与金融要素;情境分析阶段通过模块化检索增强生成技术整合金融知识与行为经济学理论;心理线索识别阶段解析用户情感状态与认知偏差;最终通过响应整合阶段生成具有行为洞察力的监督数据。
特点
该数据集涵盖债务管理、退休规划、税务优化等八大金融场景,每个样本均包含完整的思维链标注与心理特征分析。其突出特点在于将行为金融理论深度融入数据生成过程,通过双重语料库构建(金融概念库与行为洞察库)确保建议兼具专业性与个性化。数据验证环节采用多轮LLM陪审团评估机制,在保持语义准确性的同时显著提升响应的人类偏好度,使8B参数模型在事实准确性、流畅度等指标上达到14-32B基线模型的性能水平。
使用方法
该数据集专为训练端到端金融顾问模型设计,可直接用于监督微调任务。研究人员可基于完整思维链标注实现分阶段训练:首先利用查询解析模块增强意图识别能力,通过情境分析模块注入领域知识,再结合心理线索优化个性化生成策略。实际部署时建议配合轻量级检索增强框架,将静态金融政策库与动态行为特征库作为外部知识源,通过薄代理架构在保持80%成本优势的同时处理复杂金融决策场景。
背景与挑战
背景概述
19k样本推理数据集由Perfios软件解决方案的Akhil Theerthala于2025年提出,聚焦于个性化金融咨询领域。该数据集通过整合行为金融学与心理学知识,构建端到端监督数据,旨在解决传统智能体框架因高维护成本和低回报率而受限的问题。其核心研究在于开发可复现的数据生成框架,以训练高效的小型语言模型,在降低80%成本的同时,实现与大型模型相当的语义准确性和个性化表现,推动了金融语言模型向实用化与低成本化发展。
当前挑战
该数据集致力于应对个性化金融咨询中用户目标、风险容忍度及行为偏差整合的复杂性挑战,其构建过程面临多重困难:首先,需从Reddit等平台的海量查询中精准提取语义信息并消除噪声,涉及冗余数据处理与上下文聚类;其次,行为金融知识的融合要求模型识别并适应用户心理状态,但当前分析仅基于基础情感线索,缺乏深度风险评估;此外,数据生成需通过模块化链式推理与多轮LLM评审验证,确保各阶段输出的连贯性与质量,这一流程对计算资源与算法设计提出了较高要求。
常用场景
经典使用场景
在个人金融智能决策领域,19k样本推理数据集通过构建行为金融学驱动的思维链,为端到端财务顾问模型提供高质量监督数据。该数据集典型应用于训练语言模型处理多维度财务咨询任务,包括债务管理、退休规划、税务优化等场景,通过模块化框架将用户查询分解为心理状态识别、金融上下文检索与行为偏差修正等阶段,形成具有逻辑连贯性的决策路径。
衍生相关工作
该数据集催生了多个前沿研究方向:其行为金融融合范式被拓展至跨文化财务决策分析,衍生出基于地域特征的混合专家模型架构;其模块化思维链设计启发了新一代轻量级金融代理系统,如Takayanagi等人开发的FinPersona对话代理;此外,数据集构建方法论已成为金融大模型微调的标准参照,推动了如Zhou等人的LLM财务偏差量化框架等衍生研究。
数据集最近研究
最新研究方向
在个性化金融咨询领域,19k样本推理数据集正推动行为金融学与大语言模型的深度融合。前沿研究聚焦于构建端到端金融顾问系统,通过整合用户心理特征与金融知识图谱,生成具备行为洞察力的推理链。该框架通过模块化检索增强生成技术,将认知偏差识别、情感分析等心理学要素嵌入模型训练流程,显著提升了小型模型在事实准确性、语言流畅度及个性化表达方面的表现。相关研究揭示了通过精细化数据构建替代复杂智能体架构的可行性,为降低80%运营成本的高效金融决策系统提供了新范式,对推动可信赖、低延迟的个人财务管理工具发展具有深远意义。
相关研究论文
  • 1
    通过Perfios Software Solutions · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作