FinanceReasoning

github2025-06-09 更新2025-06-11 收录

下载链接：

https://github.com/BUPT-Reasoning-Lab/FinanceReasoning

下载链接

链接失效反馈

官方服务：

资源简介：

FinanceReasoning是一个新颖的基准测试，旨在评估大型推理模型在金融数值推理问题中的推理能力。根据推理的难度，问题被分为三个子集：简单（1,000个例子）、中等（1,000个例子）和困难（238个例子）。数据集以json格式提供，包含问题ID、问题文本、上下文信息、统计信息、Python解决方案、标准答案、难度系数、难度级别和问题来源等属性。

FinanceReasoning is a novel benchmark designed to evaluate the reasoning capabilities of large-scale reasoning models in financial numerical reasoning problems. The problems are categorized into three subsets based on the difficulty level: Easy (1,000 examples), Medium (1,000 examples), and Hard (238 examples). The dataset is provided in JSON format and includes attributes such as problem ID, problem text, contextual information, statistical information, Python solution, standard answer, difficulty coefficient, difficulty level, and problem source.

创建时间：

2025-05-30

原始信息汇总

FinanceReasoning 数据集概述

数据集简介

FinanceReasoning 是一个用于评估大型推理模型（LRMs）在金融数值推理问题中推理能力的基准测试数据集。该数据集基于推理难度分为三个子集：

Easy：1,000 个示例
Medium：1,000 个示例
Hard：238 个示例

数据结构

数据集以 JSON 格式提供，包含以下属性：

主要数据

json { "question_id": "问题唯一标识符", "question": "问题文本，通常是金融数据分析问题", "context": "问题背景信息，包括 Markdown 格式的表格数据", "statistics": { "number_statistics": "数字统计信息", "operator_statistics": "运算符使用统计", "code_statistics": "代码相关统计" }, "python_solution": "金融专家编写的 Python 解决方案代码", "ground_truth": "标准答案，通常是执行 Python 解决方案的结果", "difficulty": "问题难度系数", "level": "问题难度级别（hard、medium、easy）", "source": "问题来源标识符" }

金融函数库

json { "function_id": "函数唯一标识符", "function": "函数代码", "function_docstring": "函数文档字符串" }

金融文档库

json { "document_id": "文档唯一标识符", "document": "文档文本", "document_docstring": "文档文档字符串" }

实验设置

环境配置

依赖安装：pip install -r requirements.txt
配置文件：config/config.yaml 控制推理和评估的所有方面

推理方法

基于配置的推理 bash python inference.py --config config/config.yaml
批量 API 推理 bash python utils/openai_batch.py --dataset "FinanceReasoning" --subset "hard" --prompt "cot" --model "your_model_id" --api_key "your_api_key" --base_url "your_base_url"

评估方法

bash python evaluation.py --config config/config.yaml

实验结果存储

推理结果存储在 results 目录中
CoT 输出存储在 results/FinanceReasoning/hard/raw_cot_outputs 和 results/FinanceReasoning/hard/processed_cot_outputs
PoT 输出存储在 results/FinanceReasoning/hard/raw_pot_outputs 和 results/FinanceReasoning/hard/processed_pot_outputs

搜集汇总

数据集介绍

构建方式

在金融数值推理领域，FinanceReasoning数据集的构建体现了严谨的学术态度。研究团队基于问题推理难度，将数据集划分为三个层次：简单（1,000例）、中等（1,000例）和困难（238例）。每个样本均包含完整的金融问题描述、上下文背景、Python专家解决方案及标准答案，并通过详细的统计指标（如数值特征、运算符使用频率等）进行标注。数据采集过程严格遵循金融领域的专业标准，确保问题的真实性和挑战性。

使用方法

使用该数据集时，研究者可通过配置文件灵活设置推理参数，支持多种大语言模型的评估。系统提供两种主要运行模式：基于配置文件的批量推理和优化成本的API批量推理。评估流程高度自动化，结果按模型类型和提示策略自动分类存储。对于进阶研究，数据集还支持RAG（检索增强生成）框架的并行推理，通过函数检索服务器实现更复杂的金融问题求解。

背景与挑战

背景概述

FinanceReasoning数据集是专为评估大型推理模型在金融数值推理问题上的能力而设计的新型基准测试工具。该数据集由研究人员借助现代AI开发工具精心构建，旨在通过多样化的金融数据分析问题，全面检验模型在复杂金融场景下的推理性能。数据集依据问题难度划分为三个子集，包含从基础到高阶的金融数值推理任务，并配备详尽的金融函数库和文档库作为支撑。其核心研究问题聚焦于提升金融领域数值推理的可信度、全面性和挑战性，为金融科技领域的人工智能应用提供了重要的评估标准。

当前挑战

FinanceReasoning数据集面临的挑战主要体现在两个方面：在领域问题层面，金融数值推理涉及复杂的数学运算、多步骤逻辑推导以及对专业金融知识的理解，这对模型的综合推理能力提出了极高要求；在构建过程中，如何确保问题的真实性和代表性，平衡不同难度等级的样本分布，以及编写准确无误的Python解决方案，都是需要克服的技术难点。此外，金融领域的专业性和动态性也为数据集的时效性和扩展性带来了持续挑战。

常用场景

经典使用场景

在金融数据分析领域，FinanceReasoning数据集通过其分层次的难度设计（简单、中等、困难）为研究者提供了一个标准化的测试平台，用于评估大型推理模型在解决复杂金融数值推理问题时的表现。该数据集广泛应用于模型推理能力的基准测试，特别是在需要处理金融报表分析、投资回报计算等场景时，能够有效衡量模型对金融专业知识的理解和应用能力。

解决学术问题

FinanceReasoning数据集解决了金融数值推理领域缺乏可信、全面且具有挑战性基准的问题。通过提供包含详细上下文信息、Python解决方案和标准答案的结构化数据，该数据集为研究者提供了一个可靠的评估工具，推动了金融领域自然语言处理和机器学习模型的发展，特别是在复杂金融问题求解和自动化金融分析方面。

实际应用

在实际应用中，FinanceReasoning数据集被金融机构和金融科技公司用于开发和测试自动化金融分析系统。这些系统能够处理复杂的金融数值推理问题，如风险评估、投资组合优化和财务预测，显著提高了金融决策的效率和准确性。数据集中的金融函数库和文档库进一步增强了这些系统解决实际金融问题的能力。

数据集最近研究