CNFinBench

github2026-02-05 更新2026-02-07 收录

下载链接：

https://github.com/VertiAIBench/CNFinBench

下载链接

链接失效反馈

官方服务：

资源简介：

CNFinBench是一个全面的基准测试，用于评估高风险金融场景中的大型语言模型和代理系统。它不同于传统的教科书式金融问答基准，而是针对由高权限金融代理引入的现实世界部署风险，并沿着三个正交轴系统地评估模型：专业知识、自主性和完整性。CNFinBench涵盖29个细粒度任务，基于认证的监管语料库、真实金融工作流程和多轮对抗攻击场景。

CNFinBench is a comprehensive benchmark designed to evaluate large language models and AI agent systems in high-stakes financial scenarios. Unlike traditional textbook-style financial question answering benchmarks, it targets real-world deployment risks introduced by high-privilege financial agents, and systematically assesses models along three orthogonal axes: expertise, autonomy, and integrity. CNFinBench covers 29 fine-grained tasks based on certified regulatory corpora, real-world financial workflows, and multi-round adversarial attack scenarios.

创建时间：

2026-01-29

原始信息汇总

CNFinBench 数据集概述

数据集简介

CNFinBench 是一个用于评估大型语言模型和智能体系统在高风险金融场景下表现的综合性基准。它旨在评估由高权限金融智能体引入的现实世界部署风险，并沿三个正交维度系统性地评估模型。

核心评估维度

专业知识

专业金融知识与推理
复杂逻辑组合
情境分析韧性

自主性

端到端执行（意图 → 计划 → 工具 → 验证）
战略规划与推理
元认知可靠性

完整性

即时风险拦截
合规持续性
动态对抗编排

数据集规模

29个细粒度子任务，涵盖专业知识、自主性与完整性。
11,947个单轮问答实例。
321个多轮对抗性对话（每轮4回合）。
22个已评估模型（开源、闭源、金融领域微调）。

数据构建方法

采用多阶段数据生成流程，结合：

LLM辅助合成：用于可扩展的问题生成。
专家编写与验证：确保领域准确性和风险覆盖。
交互与安全任务设计：模拟信任边界和真实的智能体执行链。
任务感知的评分标准标注：支持跨三个维度的可解释模型评估。

多轮安全评估与HICS

为量化行为合规性退化，CNFinBench引入了：

有害指令合规性分数

多维、严重程度感知的安全度量指标。
跟踪对话轮次中的违规升级。
支持可解释的规则级推导日志。
揭示不同攻击策略下的崩溃节奏。

使用与评估

多轮对话评估

详细指南位于 multi-turn 目录：

英文指南：https://github.com/VertiAIBench/CNFinBench/blob/main/multi-turn/README.md
中文指南：https://github.com/VertiAIBench/CNFinBench/blob/main/multi-turn/README_CN.md

评估流程包括：

使用 multi-turn/pred/ 中的脚本生成多轮对话测试。
使用 multi-turn/pred/merge.py 合并输出文件。
使用 multi-turn/judge/ 中的脚本评估结果。

快速开始

安装依赖。
生成多轮对话。
合并输出文件。
评估结果。

在线资源

学术论文：https://arxiv.org/abs/2512.09506
在线排行榜与模型提交：https://cnfinbench.opencompass.org.cn/home
演示视频：https://www.bilibili.com/video/BV1tCFKz7E5V

引用

如果使用CNFinBench，请引用提供的BibTex条目。

搜集汇总

数据集介绍

构建方式

在金融大语言模型评估领域，CNFinBench的构建采用了多阶段数据生成流程。该流程深度融合了大规模语言模型辅助合成与专家人工创作验证，确保了数据的规模性与领域准确性。其核心在于模拟高权限金融智能体的真实工作流与风险场景，任务设计覆盖从意图理解到工具执行的完整代理链条，并基于经过认证的监管文本与对抗性交互模式进行安全边界测试。数据标注过程引入了任务感知的评估准则，为模型在专业知识、自主性与合规性三个维度的可解释性评估奠定了坚实基础。

特点

CNFinBench的显著特征在于其三维评估框架，突破了传统金融问答基准的局限。它将金融智能解构为专业知识、自主执行与安全合规三个正交维度，下设29个细粒度任务。数据集不仅包含近一万两千个单轮问答实例，更创新性地引入了321个多轮对抗性对话，用以量化模型在持续诱导下的行为合规性衰减，并通过有害指令遵从分数提供可解释的安全度量。其任务设计根植于真实金融工作流程与认证监管语料，实现了对模型从静态知识到动态代理能力的系统性考察。

使用方法

该数据集通过集成于OpenCompass的自动化评估平台提供服务，支持对开源与闭源模型的统一评测。使用方法主要围绕多轮对抗对话评估展开，用户需配置攻防双方及评判模型的API密钥与端点。评估流程始于使用指定脚本生成多轮对话测试，随后合并输出文件，最终调用评估模块基于任务感知准则与LLM即评判协议进行打分。平台提供实时更新的排行榜，使得研究者能够便捷地对比模型在复杂金融场景下的综合表现，并洞察其在不同攻击策略下的安全崩溃规律。

背景与挑战

背景概述

随着大型语言模型在金融领域的深入应用，其部署于高风险场景时引发的合规与安全风险日益凸显。CNFinBench应运而生，该基准由上海市政府及相关研究机构于2025年联合发布，旨在系统评估金融大模型与智能体系统的专业能力、自主执行及安全合规性。其核心研究问题聚焦于超越传统知识问答，深入探究模型在真实金融工作流与对抗性交互中的行为可靠性，为金融智能化发展提供了关键的评价标准与风险预警机制。

当前挑战

CNFinBench致力于解决金融领域智能体系统在高风险场景下面临的三大核心挑战：在专业能力维度，需应对复杂金融逻辑组合与情境分析鲁棒性的考验；在自主执行维度，模型需完成从意图识别到工具调用的端到端规划与元认知可靠性验证；在安全合规维度，则必须实现即时风险拦截与动态对抗环境下的合规持续性。构建过程中，挑战主要源于如何融合法学专家知识与大模型辅助生成，以规模化构建覆盖29项细粒度任务、且基于真实监管语料与对抗性多轮对话的高质量评估数据，同时确保评估指标如有害指令合规分数的科学性与可解释性。

常用场景

经典使用场景

在金融科技领域，CNFinBench作为一套综合性评估基准，其经典使用场景聚焦于对大型语言模型及智能体系统在金融高风险环境下的全面能力测评。该数据集通过模拟真实金融工作流程与多轮对抗性交互，系统性地检验模型在专业知识掌握、自主决策执行以及合规安全维护三个维度的表现，为金融机构部署可信赖的人工智能系统提供了标准化、可量化的评估框架。

衍生相关工作

围绕CNFinBench的评估理念与方法，已衍生出一系列重要的学术与工程实践。其提出的三维评估框架（专业知识、自主性、完整性）启发了后续研究对金融智能体进行更细粒度的能力解构。基于其构建的自动化评估平台与实时排行榜，促进了开源与闭源模型的横向对比与持续迭代。相关研究工作进一步探索了多轮对抗对话中的安全衰减规律与合规性持久力，推动了金融大模型安全评估向动态化、可解释化方向发展。

数据集最近研究