BizFinBench

github2025-05-20 更新2025-05-21 收录

下载链接：

https://github.com/HiThink-Research/BizFinBench

下载链接

链接失效反馈

官方服务：

资源简介：

BizFinBench是第一个基于真实金融应用的评估基准，包含6,781个标注查询，覆盖五个维度：数值计算、推理、信息提取、预测识别和基于知识的问答，并映射到九个细分类别。

BizFinBench is the first evaluation benchmark based on real-world financial applications, which comprises 6,781 annotated queries covering five dimensions: numerical computation, reasoning, information extraction, prediction recognition, and knowledge-based question answering, and is mapped to nine fine-grained categories.

创建时间：

2025-05-07

原始信息汇总

BizFinBench 数据集概述

基本信息

名称：BizFinBench
领域：金融领域
语言：中文
规模：6,781条标注查询
发布版本：V1（2025年5月16日发布）
许可证：CC BY-NC 4.0（仅限研究使用）

核心特点

首个业务导向的金融基准测试：覆盖真实金融应用场景。
多维度评估：包含5个维度和9个细分类别。
创新评估方法：采用Iterajudge方法增强LLMs作为评判者的能力。

数据分布

子任务名称	评估维度	数据量
异常事件归因	因果一致性、信息相关性、抗噪能力	1,064
金融数值计算	计算准确性、单位一致性	581
金融时间推理	时间推理正确性	514
金融数据描述	趋势准确性、数据一致性	1,461
股票价格预测	趋势判断、因果合理性	497
金融命名实体识别	识别准确性、实体类别正确性	433
情绪识别	情绪分类准确性、隐含信息推理正确性	600
金融工具使用	工具选择合理性、参数输入准确性、多工具协调能力	641
金融知识问答	查询理解准确性、知识覆盖广度、回答专业性	990

评估结果

评估模型：25个LLMs（包括专有和开源模型）
评估指标：各子任务准确率及综合平均分
表现最佳模型：
- 专有模型：ChatGPT-o3（平均73.86分）
- 开源模型：DeepSeek-R1（671B）（平均73.05分）

使用方式

评估流程：
- 启动待评估模型服务
- 运行评估脚本（支持本地模型和评判模型联合评估）
代码结构：

llm-eval/ ├── benchmark_code/ # 基准测试代码 ├── config/ # 配置文件 ├── inference/ # 推理引擎代码 ├── eval.py # 评估脚本 └── statistic.py # 统计工具

相关资源

论文：https://arxiv.org/abs/25xx.xxxxx（即将发布）
HuggingFace数据集：https://huggingface.co/datasets/HiThink-Research/BizFinBench

搜集汇总

数据集介绍

构建方式

在金融领域专业性与逻辑严谨性并重的背景下，BizFinBench通过多维度任务设计构建了首个业务导向的金融评估基准。研究团队基于真实金融应用场景，采用分层抽样策略收集了涵盖数值计算、时序推理、事件归因等九大细分类别的6,781条中文查询数据，每条数据均经过金融专家团队的严格标注与交叉验证。数据集构建过程中特别注重金融图表（如K线图、技术指标图）与专业知识（如期货、换手率）的深度融合，通过迭代式标注流程确保数据质量，最终形成具有业务代表性的评估体系。

使用方法

使用该数据集需遵循标准化评估流程，通过模块化代码架构实现灵活配置。评估系统采用微服务架构设计，支持本地模型与云端模型的统一评测，主要包含三个关键环节：首先通过predict_multi_gpu.py启动待评估模型服务，指定端口与提示模板；随后运行run.py加载预定义的业务配置模板，自动执行多维度测试；最终通过Iterajudge创新评估机制，利用经过金融任务优化的裁判模型进行结果评分。系统提供完整的统计工具链，支持从原始响应到综合指标的自动化分析，特别针对金融场景优化了低显存运行模式，确保各类硬件环境下的评估可行性。

背景与挑战

背景概述

BizFinBench是由HiThink-Research团队于2025年推出的首个面向真实金融场景的多维度评测基准，旨在填补金融领域专业评估工具的空白。该数据集由Guilong Lu、Xuntao Guo等学者联合构建，包含6,781条中文标注数据，覆盖数值计算、逻辑推理、信息抽取等五大核心维度，细分为异常事件归因、金融工具调用等九个子任务。作为金融科技领域的重要基础设施，该基准通过模拟股票预测、情绪识别等实际业务场景，为评估大语言模型在专业领域的逻辑严谨性和计算精确性提供了标准化方案。

当前挑战

在解决金融领域专业评估的挑战方面，BizFinBench需应对三大核心难题：金融文本特有的专业术语理解（如技术指标分析）、高精度数值计算的容错要求（如收益率复合运算），以及多模态数据（新闻文本与K线图）的联合推理能力。数据集构建过程中，研究团队面临标注质量控制的挑战，包括金融事件因果关系的专家验证、跨市场时序数据的对齐处理，以及涉及敏感商业信息的脱敏平衡。此外，金融市场的动态特性要求数据持续更新以保持时效性，这对基准的长期维护提出较高要求。

常用场景

经典使用场景

在金融科技领域，BizFinBench作为首个基于真实商业场景构建的金融基准测试集，其经典使用场景主要体现在对大型语言模型（LLMs）的多维度能力评估。该数据集通过6,781条中文标注查询，系统性地检验模型在数值计算、时序推理、信息抽取等五大金融核心任务中的表现，尤其擅长评估模型对K线图、技术指标等专业金融图像及期货、换手率等专业知识的理解能力。其独特的Iterajudge评估机制进一步细化了模型在金融场景下的决策边界判定，为量化模型性能提供了标准化框架。

解决学术问题

BizFinBench有效解决了金融自然语言处理领域三大核心学术问题：一是填补了专业金融评测基准的空白，通过异常事件归因、金融工具调用等九类细粒度任务，建立了首个覆盖业务全流程的评估体系；二是攻克了金融领域逻辑严谨性与结果精确性的双重验证难题，其设计的时序推理和数值计算任务能精准捕捉模型在利率计算、涨跌幅推导等场景的细微误差；三是突破了传统评测对隐含金融知识建模的局限，通过情感识别、百科问答等任务，首次实现了对市场情绪、专业术语等抽象概念的量化评估。

实际应用

该数据集在金融行业实际应用中展现出显著价值：智能投顾系统可借助其股票预测和情感识别模块优化客户风险偏好分析；量化交易平台通过异常事件归因任务提升市场波动解释能力；金融机构利用金融工具调用评估优化智能客服的多轮对话策略。特别在中文金融场景中，其涵盖的1,461条数据描述任务已成功应用于上市公司财报自动摘要生成，而990条百科问答数据则成为金融知识图谱构建的重要语料来源。

数据集最近研究