BizFinBench.v2

github2026-01-06 更新2026-01-07 收录

下载链接：

https://github.com/HiThink-Research/BizFinBench.v2

下载链接

链接失效反馈

官方服务：

资源简介：

BizFinBench.v2是BizFinBench的第二版发布，完全基于中国和美国股票市场的真实用户查询构建。它填补了学术评估与实际金融操作之间的空白，具有真实性和实时性，集成了在线评估能力，包含29,578个问答对，涵盖4个核心业务场景、8个基本任务和2个在线任务。

BizFinBench.v2 is the second official release of the BizFinBench dataset, constructed exclusively from real user queries sourced from both Chinese and U.S. stock markets. It bridges the critical gap between academic financial evaluation and real-world operational practices, features authenticity and timeliness, incorporates online evaluation functionalities, and comprises 29,578 question-answer pairs covering 4 core business scenarios, 8 fundamental tasks and 2 online evaluation tasks.

创建时间：

2026-01-05

原始信息汇总

BizFinBench.v2 数据集概述

数据集基本信息

数据集名称：BizFinBench.v2
发布机构：HiThink Research，上海财经大学
核心描述：BizFinBench.v2 是 BizFinBench 的第二版发布，是一个统一的离线-在线双语基准测试，用于专家级金融能力评估。该数据集完全基于来自中国和美国股票市场的真实用户查询构建，旨在弥合学术评估与实际金融操作之间的差距。

数据集规模与构成

数据总量：包含 29,578 个问答对。
语言：双语（中文与英文）。
数据来源：100% 源自真实金融平台查询。
核心特征：具有专家级难度，需要专业的金融推理能力。

任务与场景覆盖

核心业务场景：涵盖 4 个核心业务场景。
基础任务：包含 8 项基础任务。
在线任务：包含 2 项在线任务。
评估维度：数据集包含多个子任务，每个子任务侧重于不同的金融理解和推理能力。

关键评估发现

任务难度：即使在主要任务上，ChatGPT-5 的准确率也仅为 61.5%，与人类专家存在显著差距。
在线任务表现：在动态在线任务中，DeepSeek-R1 的表现优于所有其他商业大语言模型。

使用方式

环境准备：需安装 requirements.txt 中指定的依赖。
评估本地模型：可通过 run_pipeline.py 脚本，指定配置文件（如 config/offical/BizFinBench_v2.yaml）和模型路径进行评估。
使用评判模型评分：在评估本地模型时，可额外指定评判模型路径和端口进行评分。
评估外部API：支持通过 run.py 脚本评估外部API（如 ChatGPT），需设置相应的 API 名称、密钥和模型名称。
速率限制：可通过修改 envs/constants.py 中的 semaphore_limit 设置来调整API的每秒查询限制。

许可信息

代码许可：Apache 2.0 许可证。
数据许可：CC BY-NC 4.0 许可证。
使用限制：数据和代码仅授权用于研究用途。使用时需遵守 OpenAI 的使用条款政策（https://openai.com/policies/terms-of-use）。

引用与致谢

引用格式待公布。
致谢待公布。

搜集汇总

数据集介绍

构建方式

在金融科技领域，构建能够准确评估大型语言模型专业能力的基准数据集至关重要。BizFinBench.v2的构建完全基于中美股票市场的真实用户查询，确保了数据来源的真实性与时效性。通过整合离线与在线评估能力，该数据集涵盖了29,578个问答对，这些数据源自实际金融平台，并经过专业标注，以反映复杂的金融推理需求。其构建过程注重场景多样性，覆盖了四个核心业务场景和八项基础任务，从而在学术评估与实际金融操作之间架起了桥梁。

特点

作为一项专家级金融能力评估基准，BizFinBench.v2展现出多维度特点。其真实性体现在数据全部来源于金融平台的实际查询，确保了评估场景与现实世界的高度契合。数据集具有较高的专业难度，即使先进模型如ChatGPT-5在主任务上的准确率也仅达到61.5%，凸显了与人类专家水平的差距。此外，它全面覆盖了股票市场分析、财务报告解读等核心金融场景，并创新性地融入了动态在线任务，为模型在实时金融环境中的表现提供了评估框架。

使用方法

对于研究人员而言，BizFinBench.v2提供了灵活的使用方式以评估语言模型的金融能力。用户可以通过配置YAML文件快速启动评估流程，支持本地模型与远程API的测试。例如，运行run_pipeline.py脚本并指定模型路径即可对本地模型进行离线评估；若需结合裁判模型进行评分，可通过附加参数配置法官模型。对于外部API如ChatGPT的评估，则需设置相应的API密钥与模型名称，并通过调整信号量限制来优化查询速率。数据集的使用强调研究导向，需遵循CC BY-NC 4.0许可协议。

背景与挑战

背景概述

随着大型语言模型在金融领域的应用日益深入，对其专业能力进行精准评估成为关键研究议题。BizFinBench.v2由HiThink Research与上海财经大学的研究团队于近期联合发布，作为BizFinBench的第二版迭代，该数据集旨在构建一个统一的双语离线-在线基准，专门用于评估语言模型在专家级金融能力方面的表现。其核心研究问题聚焦于弥合学术评估与实际金融操作之间的鸿沟，通过完全基于中美股市真实用户查询构建的29,578个问答对，覆盖四大核心业务场景与八项基础任务，显著提升了金融领域模型评估的真实性与时效性，对推动金融智能化发展具有重要影响力。

当前挑战

在金融领域，专业问题的复杂性与动态性构成了模型评估的主要挑战。BizFinBench.v2所针对的领域问题涉及高级金融推理与实时市场分析，其挑战体现在模型需具备深厚的专业知识以应对如财务分析、投资决策等任务，即便先进如ChatGPT-5模型在主任务上的准确率也仅达61.5%，凸显了与人类专家水平的显著差距。在数据集构建过程中，挑战源于如何从真实金融平台查询中提取并结构化高质量数据，确保其既反映实际用户需求又保持专业难度，同时整合在线评估能力以模拟动态市场环境，这要求严格的数据清洗与多场景设计，以维持评估的全面性与可靠性。

常用场景

经典使用场景

在金融科技与自然语言处理交叉领域，BizFinBench.v2数据集作为专家级金融能力评估基准，其经典使用场景聚焦于大语言模型在真实金融市场环境下的性能评测。该数据集基于中美股市的真实用户查询构建，覆盖股票分析、财报解读、投资建议等核心业务场景，研究者通过离线与在线任务结合的方式，系统评估模型在复杂金融推理、实时信息处理及双语理解方面的能力，为模型优化提供了精准的参照框架。

解决学术问题

该数据集有效解决了金融领域大语言模型评估中真实性不足、难度偏低及场景覆盖狭窄的学术研究问题。通过整合29,578个专业级问答对，它弥合了学术评测与实际金融操作之间的鸿沟，为衡量模型在动态市场环境下的推理准确性、实时响应能力及跨语言金融知识迁移提供了标准化方案，推动了金融人工智能向实用化与专业化方向发展。

衍生相关工作

围绕BizFinBench.v2数据集，已衍生出多项经典研究工作，包括基于其评估结果的模型对比分析、金融领域提示工程优化策略以及跨语言金融知识增强方法。例如，研究通过该基准揭示了DeepSeek-R1在动态在线任务中的卓越性能，激发了针对专业金融推理的模型微调与架构创新，进一步拓展了双语金融人工智能的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集