BizFinBench

Name: BizFinBench
Creator: HiThink Research
Published: 2025-05-26 11:23:02
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://github.com/HiThink-Research/BizFinBench

下载链接

链接失效反馈

官方服务：

资源简介：

BizFinBench是一个专为评估LLMs在现实世界金融应用中的性能而设计的基准数据集。该数据集包含6781个精心注释的中文查询，涵盖了数值计算、推理、信息提取、预测识别和基于知识的问答五个维度，并细分为九个类别。数据集强调商业背景下的评估，例如，在异常事件归因任务中，LLMs需要通过分析实时新闻源来识别股票价格异常的原因，其中一些新闻源故意嵌入了误导性的正面或负面信息。BizFinBench的数据主要来源于iwencai APP上的真实用户查询，该APP服务于广泛的个人投资者和金融专业人士，提供股票筛选、市场分析和个性化投资协助等功能。通过分析用户查询，金融专家确定了九个代表性的任务类别，这些类别在现实世界金融场景中频繁出现，并共同占据了平台上观察到的查询的90%以上，因此具有很强的代表性。数据集的构建过程包括使用GPT-4o进行数据清理、过滤和分类，以及为代表性不足的类别生成额外数据，以确保数据集的质量和实用性。

BizFinBench is a benchmark dataset specifically designed to evaluate the performance of Large Language Models (LLMs) in real-world financial applications. The dataset contains 6,781 meticulously annotated Chinese queries covering five dimensions: numerical computation, reasoning, information extraction, prediction recognition, and knowledge-based question answering, which are further subdivided into nine categories. The dataset emphasizes assessment in commercial contexts. For example, in the anomalous event attribution task, LLMs are required to identify the causes of stock price anomalies by analyzing real-time news sources, some of which intentionally embed misleading positive or negative information. The data of BizFinBench is mainly sourced from real user queries on the iwencai APP, which serves a wide range of individual investors and financial professionals, providing functions such as stock screening, market analysis, and personalized investment assistance. By analyzing user queries, financial experts identified nine representative task categories that frequently appear in real-world financial scenarios and collectively account for more than 90% of the queries observed on the platform, thus demonstrating strong representativeness. The dataset construction process includes using GPT-4o for data cleaning, filtering and classification, as well as generating additional data for underrepresented categories to ensure the quality and practicality of the dataset.

提供机构：

HiThink Research

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

BizFinBench数据集的构建过程体现了严谨的学术态度与金融实务的深度融合。研究团队基于iwencai APP真实用户查询，通过金融专家定义的九大业务场景分类，采用GPT-4o进行数据清洗与分类，并针对低频类别进行数据增强。在上下文构建环节，创新性地引入时间锚定机制与干扰数据设计，要求模型必须理解金融数据的时效性与噪声环境。所有数据点均经过三位资深金融专家的三重校验机制，确保标注一致性达到100%，这种多层质量控制体系显著提升了数据集的信效度。

特点

该数据集具有三个显著特征：维度设计的系统性覆盖金融核心能力，包含数值计算、推理等五大维度及九个细分类别；业务场景的真实性体现在6,781个案例均源自实际投资决策场景，并保留原始查询的复杂语境；评估体系的创新性表现为首创的IteraJudge框架，通过维度解耦评估和迭代校准，将评估偏差降低17.24%。特别是干扰数据的精心设计（如反向市场情绪的新闻插入），有效检验模型在对抗性环境下的稳健性。

使用方法

使用该数据集时需注意三维度应用规范：评估流程上，建议采用官方提供的IteraJudge框架，通过三阶段管道实现细粒度能力诊断；任务配置方面，应保持最大生成长度1,024 tokens的标准化设置，温度参数固定为0以确保结果可比性；结果解析环节，要求模型输出严格遵循JSON格式，包含思维链(cot)和最终答案(answer)两个必填字段。对于金融实体识别等结构化任务，需特别注意Markdown格式表格的解析规范。基准测试表明，在H100集群环境下完整评估约需10小时，API调用成本控制在21,000美元以内。

背景与挑战

背景概述

BizFinBench是由HiThink Research与哈尔滨工业大学的研究团队于2025年推出的首个面向真实金融业务场景的大语言模型评估基准。该数据集包含6,781条中文标注数据，覆盖数值计算、推理、信息抽取、预测识别和知识问答五大维度，细分为九个金融任务类别。其创新性在于采用业务驱动的数据构建方法，通过整合真实用户查询与多源金融数据（如股票行情、财报、新闻），并引入对抗性干扰信息，有效弥合了传统金融基准与真实业务需求之间的差距。作为金融AI领域的重要基础设施，BizFinBench为评估模型在复杂金融场景下的逻辑推理、抗噪声能力和业务适应性提供了标准化测试环境。

当前挑战

BizFinBench面临的核心挑战体现在两个方面：领域问题层面，金融任务具有高逻辑密度和精确性要求的特点，现有模型在跨概念推理（如同时处理时间序列分析与事件归因）、抗干扰信息（如识别误导性新闻）和复杂数值计算（如多步骤财务推导）等场景表现不佳；数据构建层面，需解决真实业务查询的语义模糊性（如隐含时间指代的消解）、专业标注的高成本（需三方金融专家共识）以及多模态数据对齐（如表格数据与文本描述的融合）等难题。此外，传统LLM-as-a-Judge评估方法在金融领域存在提示偏见和专业对齐不足的问题，促使研究者开发了迭代校准框架IteraJudge以提升评估信效度。

常用场景

经典使用场景

BizFinBench作为首个专注于真实金融业务场景的基准测试数据集，其经典使用场景主要体现在对大型语言模型（LLMs）在金融领域多维能力的系统性评估。该数据集通过6,781条中文标注查询，覆盖数值计算、推理、信息抽取、预测识别和知识问答五大维度，特别适用于检验模型在复杂金融语境下的逻辑推演能力。例如在异常事件归因任务中，模型需分析含噪声的时序新闻数据以识别股价波动原因，模拟了投研分析师的实际工作场景。

解决学术问题

BizFinBench有效解决了金融领域LLM评估的两大核心学术问题：一是填补了现有基准在结构化输入和业务导向推理方面的空白，通过融合真实用户查询与市场数据，构建了更具生态效度的评估体系；二是提出了IteraJudge评估框架，通过维度解耦和迭代校准机制，显著降低了LLM-as-a-Judge方法在金融专业评估中的偏差问题。该数据集为量化模型在跨概念推理、时序分析等高阶金融认知能力方面的表现提供了标准化度量工具。

衍生相关工作

该数据集已衍生出三类重要研究工作：首先是领域适配方法，如DeepSeek-R1采用的金融强化训练策略；其次是评估范式的扩展，包括基于BizFinBench构建的多模态金融评估框架MME-Finance；最后是专用模型开发，如Dianjin-R1通过该基准验证的双奖励强化学习方案。相关成果在ACL、KDD等顶会形成专项研讨会，推动形成了金融大模型评估的标准化研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集