BizFinBench
收藏Hugging Face2025-05-19 更新2025-05-20 收录
下载链接:
https://huggingface.co/datasets/HiThink-Research/BizFinBench
下载链接
链接失效反馈官方服务:
资源简介:
BizFinBench 是一个针对真实世界金融应用的大语言模型评估基准,包含 6,781 个中文标注查询,涵盖数值计算、推理、信息提取、预测识别和基于知识的问答五个维度,细分为九个类别。数据集包含多个子任务,每个子任务专注于不同的金融理解和推理能力。README 文件还提供了各种模型在这些任务上的性能排行榜。
创建时间:
2025-05-16
原始信息汇总
BizFinBench 数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 中文
- 标签: 金融
- 数据集名称: BizFinBench
- 规模: 10K < n < 100K
- 任务类别: 问答
数据集配置
-
Anomalous_Event_Attribution
- 文件路径:
Anomalous_Event_Attribution/*.jsonl - 分割: test
- 文件路径:
-
Emotion_Recognition
- 文件路径:
Emotion_Recognition/*.jsonl - 分割: test
- 文件路径:
-
Financial_Data_Description
- 文件路径:
Financial_Data_Description/*.jsonl - 分割: test
- 文件路径:
-
Financial_Knowledge_QA
- 文件路径:
Financial_Knowledge_QA/*.jsonl - 分割: test
- 文件路径:
-
Financial_Named_Entity_Recognition
- 文件路径:
Financial_Named_Entity_Recognition/*.jsonl - 分割: test
- 文件路径:
-
Financial_Numerical_Computation
- 文件路径:
Financial_Numerical_Computation/*.jsonl - 分割: test
- 文件路径:
-
Financial_Time_Reasoning
- 文件路径:
Financial_Time_Reasoning/*.jsonl - 分割: test
- 文件路径:
-
Financial_Tool_Usage
- 文件路径:
Financial_Tool_Usage/*.jsonl - 分割: test
- 文件路径:
-
Stock_Price_Prediction
- 文件路径:
Stock_Price_Prediction/*.jsonl - 分割: test
- 文件路径:
数据集描述
BizFinBench 是一个基于真实金融应用的基准测试,包含 6,781 条中文查询,涵盖五个维度:数值计算、推理、信息提取、预测识别和基于知识的问答,细分为九个类别。
子任务详情
| 数据集 | 描述 | 评估维度 | 数量 |
|---|---|---|---|
| Anomalous Event Attribution | 评估模型基于给定信息追踪股票波动的能力 | 因果一致性、信息相关性、抗噪性 | 1,064 |
| Financial Numerical Computation | 评估模型在金融场景中进行精确数值计算的能力 | 计算准确性、单位一致性 | 581 |
| Financial Time Reasoning | 评估模型理解和推理基于时间的金融事件的能力 | 时间推理正确性 | 514 |
| Financial Data Description | 评估模型分析和描述结构化/非结构化金融数据的能力 | 趋势准确性、数据一致性 | 1,461 |
| Stock Price Prediction | 评估模型基于历史数据、金融指标和市场新闻预测未来股票价格趋势的能力 | 趋势判断、因果合理性 | 497 |
| Financial Named Entity Recognition | 评估模型识别金融新闻中的实体的能力 | 识别准确性、实体类别正确性 | 433 |
| Emotion Recognition | 评估模型在复杂金融市场环境中识别用户情绪的能力 | 情绪分类准确性、隐式信息提取和推理正确性 | 600 |
| Financial Tool Usage | 评估模型理解用户查询并适当使用金融工具解决问题的能力 | 工具选择合理性、参数输入准确性、多工具协调能力 | 641 |
| Financial Knowledge QA | 评估模型对核心金融知识的理解和回答准确性 | 查询理解准确性、知识覆盖广度、答案准确性和专业性 | 990 |
性能排行榜
评估了 25 个大型语言模型在多个任务上的表现,结果按任务分类,前三名分别用 🥇、🥈、🥉 标记。
亮点
- 基准测试: 提出首个金融领域集成商业任务的评估基准 BizFinBench。
- 评估方法: 设计 Iterajudge 方法,增强 LLMs 在特定金融评估任务中的决策边界。
- 关键洞察: 基于 BizFinBench 对 25 个 LLMs 进行全面评估,揭示其在金融应用中的优势和局限性。
搜集汇总
数据集介绍

构建方式
在金融领域,精确的逻辑推理和数据分析能力至关重要。BizFinBench作为首个基于真实金融应用场景的基准测试数据集,通过精心设计的构建流程,汇集了6,781条经过专业标注的中文查询数据。该数据集采用多维度分类框架,涵盖数值计算、推理分析、信息抽取、预测识别和知识问答五大核心维度,并细分为九个具体任务类别。构建过程中,研究团队严格遵循金融行业的专业标准,确保每个数据点都能准确反映实际业务场景中的复杂需求。
特点
BizFinBench以其鲜明的专业特色在金融自然语言处理领域脱颖而出。数据集不仅包含股票异常事件归因、金融数值计算等传统任务,还创新性地引入了金融工具使用、情绪识别等前沿课题。特别值得注意的是,该数据集采用细粒度的评价维度设计,如因果一致性、时间推理正确性等专业指标,为模型评估提供了精准的测量标尺。数据来源覆盖财经新闻、研究报告、市场数据等多模态信息,充分体现了金融领域的复杂性和多样性。
使用方法
针对金融专业场景的特殊需求,BizFinBench提供了标准化的评估框架。研究人员可通过加载特定配置文件(如Financial_Numerical_Computation或Stock_Price_Prediction)访问不同任务的数据子集。数据集采用jsonl格式存储,每条记录包含完整的上下文信息和标准答案,支持端到端的模型测试。评估时建议结合领域特定的评价指标,如计算精度、工具选择合理性等,并参考官方提供的Iterajudge评估方法,以获得更准确的模型性能分析。
背景与挑战
背景概述
BizFinBench是由HiThink-Research团队构建的金融领域专业评测基准,旨在评估大语言模型在真实金融场景中的表现能力。随着大语言模型在通用任务上的优异表现,其在逻辑密集、精度要求高的金融领域的可靠性评估成为研究热点。该数据集包含6,781条经过精细标注的中文查询,覆盖数值计算、推理、信息抽取、预测识别和知识问答五个核心维度,并细分为九个具体任务类别。作为首个融合商业导向任务的金融评测基准,BizFinBench为金融自然语言处理研究提供了标准化评估体系,对推动智能投顾、风险预警等金融科技应用具有重要意义。
当前挑战
BizFinBench面临的挑战主要体现在两个方面:领域问题层面,金融文本具有专业术语密集、数值推理复杂、时序关系严谨等特点,要求模型具备高精度的数值计算能力、严谨的因果推理能力和专业的领域知识理解能力;构建过程层面,金融数据的敏感性和隐私性导致高质量标注数据获取困难,需要平衡数据覆盖的广度和标注的深度,同时金融市场的动态变化特性要求数据集持续更新以保持时效性。此外,金融领域特有的模糊语义和隐含情感识别也对标注规范提出了更高要求。
常用场景
经典使用场景
在金融科技领域,BizFinBench数据集作为首个基于真实商业场景构建的金融基准测试工具,其经典应用体现在对大型语言模型(LLMs)的多维度能力评估。该数据集通过异常事件归因、金融数值计算等九个子任务,系统性地检验模型在因果推理、时间序列分析等专业场景下的表现,尤其擅长评估模型在噪声干扰下的金融事件归因能力与复杂数值计算的精确性。
衍生相关工作
基于该数据集衍生的经典研究包括:DeepSeek团队开发的金融领域蒸馏模型验证了知识迁移的有效性,Qwen系列模型通过该基准优化了金融数值计算模块。Gemini-2.0-Flash在异常事件归因任务的优异表现催生了时序因果推理的新方法,而Claude-3.5-Sonnet在工具使用任务中的突破推动了多工具协同决策框架的发展。
数据集最近研究
最新研究方向
随着金融科技领域的快速发展,BizFinBench作为首个面向真实金融场景的中文评测基准,近期在大型语言模型(LLMs)的金融应用研究中展现出重要价值。该数据集聚焦金融领域的数值计算、时间推理、信息抽取等核心能力,为评估模型在复杂金融环境下的逻辑严谨性和专业准确性提供了标准化工具。当前研究热点集中在模型对金融异常事件归因的因果一致性分析、基于多源数据的股价预测准确性提升,以及金融工具协同调用能力的优化等方面。特别是在金融情感识别任务中,研究者正探索如何结合市场动态与用户持仓数据,提升模型对焦虑、后悔等复杂情绪的细粒度识别。这些研究不仅推动了金融领域专用模型的性能边界,也为量化评估LLMs在专业领域的可靠性提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



