FCMBench-V1.0

github2026-01-12 更新2026-01-13 收录

下载链接：

https://github.com/QFIN-tech/FCMBench

下载链接

链接失效反馈

官方服务：

资源简介：

FCMBench-V1.0是一个多模态基准测试，专注于信用风险导向的工作流程。它涵盖了18种核心证书类型，包括4,043张隐私合规的图像和8,446个QA样本。涉及3种感知任务和4种推理任务，并与10类稳健性推断交叉引用。所有任务和推断均来自现实世界的关键场景。

FCMBench-V1.0 is a multimodal benchmark focusing on credit risk-oriented workflows. It covers 18 core certificate types, including 4,043 privacy-compliant images and 8,446 QA samples. The benchmark involves 3 perception tasks and 4 reasoning tasks, which are cross-referenced with 10 categories of robustness inference. All tasks and inferences are derived from critical real-world scenarios.

创建时间：

2025-12-23

原始信息汇总

FCMBench 数据集概述

数据集基本信息

数据集名称：FCMBench
核心定位：面向信用风险工作流程的多模态基准
主要目标：为学术界与工业界之间的协作开发提供标准化的测试平台，提供跨多个赛道（图像、视频、语音、智能体等）的标准化数据集、提示词和评估脚本。
发布状态：公开版本 (v1.0)
维护者：奇富科技 / Qfin Holdings
联系方式：yangyehui-jk@qifu.com

当前可用版本：FCMBench-V1.0

发布日期：2026年01月01日
覆盖范围：涵盖18种核心证件类型。
数据规模：包含4,043张符合隐私合规要求的图像和8,446个问答样本。
任务类型：
- 感知任务：3种类型。
- 推理任务：4种类型。
鲁棒性推断：与10个类别的鲁棒性推断进行交叉引用。
任务来源：所有任务和推断均源自现实世界的关键场景。

赛道详情

1. 视觉-语言赛道 (✅ 已可用)

核心内容：基于图像的金融文档理解。
入口：Vision-Language Track
输入：文档图像 + 文本提示（JSONL格式，每行一个样本）。
输出：文本响应（JSONL格式，每行一个样本）。
评估脚本：https://github.com/QFIN-tech/FCMBench/tree/main/vision_language/evaluation.py

2. 视频理解赛道 (🕒 即将推出)

3. 语音理解与生成赛道 (🕒 即将推出)

4. 多步骤/智能体赛道 (🕒 即将推出)

参考模型演示

提供Qfin-VL-Instruct模型的交互式演示访问，该模型在FCMBench-V1.0上表现出色。有意尝试Gradio演示的用户需联系 yangyehui-jk@qifu.com 并提供姓名、所属机构/组织、预期用途和联系邮箱，访问权限将根据具体情况授予。

引用

如需引用，请使用提供的BibTex条目。

搜集汇总

数据集介绍

构建方式

在金融科技领域，数据驱动的风险评估日益重要，FCMBench-V1.0的构建体现了这一趋势。该数据集聚焦于信贷风险导向的多模态工作流，通过收集18种核心证书类型的隐私合规图像，共计4,043张，并基于真实关键场景生成8,446个问答样本。构建过程严格遵循实际业务逻辑，将感知任务与推理任务交叉结合，涵盖3类感知任务和4类推理任务，同时融入10类鲁棒性推断，确保数据来源的可靠性与场景的代表性。

特点

FCMBench-V1.0作为多模态基准测试集，其特点在于高度专业化与实用性。数据集覆盖图像、文本等多模态输入，专门针对金融文档理解设计，强调信贷风险场景的复杂性。它提供了标准化的提示词和评估脚本，支持跨学术界与工业界的协作开发，并通过隐私合规处理保障数据安全，其任务设计直接源于现实世界应用，增强了基准的生态效度。

使用方法

使用该数据集时，研究者可访问其公开的Vision-Language轨道，输入为文档图像与文本提示的JSONL格式，输出为文本响应对应的JSONL。评估过程依赖提供的Python脚本，确保结果的可复现性。数据集可通过ModelScope或Hugging Face平台获取，并附有详细的项目页面和排行榜，便于用户进行模型性能比较与迭代优化。

背景与挑战

背景概述

在金融科技领域，信用风险评估的精准化与自动化是推动行业革新的核心驱动力。FCMBench-V1.0数据集由奇富科技于2026年1月正式发布，旨在构建一个面向信用风险工作流程的多模态基准测试平台。该数据集聚焦于金融文档理解，涵盖了18种核心凭证类型，包含4,043张合规图像与8,446个问答样本，通过视觉语言任务模拟真实业务场景。其设计不仅促进了学术界与工业界的协同开发，还为多模态人工智能在金融信用领域的应用提供了标准化评估框架，对提升风险识别效率与模型泛化能力具有显著影响力。

当前挑战

金融信用风险评估涉及复杂多模态数据的融合与解析，FCMBench-V1.0致力于解决图像、文本等多源信息下的文档理解挑战，包括凭证类型识别、关键信息提取与逻辑推理等任务。在构建过程中，团队需克服数据隐私合规性约束，确保所有图像样本符合法律法规要求；同时，真实业务场景的多样性带来了标注一致性难题，需在感知与推理任务间建立跨类别稳健性推断体系，以保障数据质量与任务设计的生态有效性。

常用场景

经典使用场景

在金融风控领域，多模态人工智能模型的评估与优化是提升信贷审批效率与准确性的关键环节。FCMBench-V1.0作为专注于信用风险导向工作流程的基准测试集，其经典使用场景集中于图像与文本结合的金融文档理解任务。该数据集通过涵盖18种核心凭证类型，提供4043张合规图像与8446个问答样本，支持感知与推理两大任务类别，为研究人员构建了一个标准化的实验平台，用以测试模型在真实金融场景下的多模态信息处理能力。

解决学术问题

该数据集有效解决了金融科技研究中多模态模型评估标准缺失的学术难题。通过整合视觉与语言模态，并设计包括3类感知任务与4类推理任务的交叉验证框架，FCMBench-V1.0为学术界提供了系统性的评估工具，促进了模型在复杂金融环境下的鲁棒性与泛化能力研究。其意义在于推动了跨模态学习在金融领域的理论深化，为信用风险评估的自动化与智能化奠定了坚实的实证基础。

衍生相关工作

围绕FCMBench-V1.0，已衍生出多项经典研究工作，其中奇富科技开发的Qfin-VL-Instruct模型便是典型代表。该模型在数据集上展现出卓越性能，为后续研究提供了重要参考。同时，基于该基准的学术探索进一步推动了多模态大模型在金融文档理解、风险预测等方向的应用创新，激励了产业界与学术界的协同开发，催生了更多面向实际需求的算法改进与系统优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集