CFinBench
收藏arXiv2024-07-02 更新2024-07-04 收录
下载链接:
https://cfinbench.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
CFinBench是由华为诺亚方舟实验室等机构精心打造的中文金融领域大型语言模型评估基准,包含99,100条问题,覆盖43个细分领域,涉及单选、多选和判断题三种题型。数据集内容源自网络公开的模拟考试,经过多轮数据清洗和人工验证,确保了数据的高质量和广泛适用性。该数据集旨在全面评估模型在金融知识、资格认证、实际操作及法律法规等方面的能力,为金融领域的大型语言模型研究和应用提供了一个高标准、全面的测试平台。
CFinBench is a carefully curated evaluation benchmark for Chinese financial domain large language models, developed by institutions including Huawei Noah's Ark Lab and others. It consists of 99,100 questions covering 43 sub-sectors, with three question types: single-choice, multiple-choice, and true-false questions. The dataset content is sourced from publicly available online mock exams, and has undergone multiple rounds of data cleaning and manual verification to ensure its high quality and broad applicability. This benchmark aims to comprehensively evaluate a model's capabilities in financial knowledge, qualification certification, practical operations, laws and regulations, and other relevant areas, providing a high-standard and comprehensive test platform for research and applications of large language models in the financial domain.
提供机构:
华为诺亚方舟实验室, 华为GTS, 华为集团财务, 南洋理工大学
创建时间:
2024-07-02
原始信息汇总
CFinBench 数据集概述
关于数据集
CFinBench 是一个综合评估基准,专门设计用于在中国背景下评估大型语言模型(LLMs)的金融知识。该基准围绕四个主要类别构建:金融主题、金融资格、金融实践和金融法律。这些类别分别考察 LLMs 在基础金融知识、获取必要金融认证、履行实际金融角色以及遵守金融法律法规方面的能力。CFinBench 包含 99,100 个问题,涵盖 43 个子类别和三种类型的问题:单选、多选和判断题。
该基准用于评估 50 个代表性 LLMs,包括 GPT4 和几个面向中国的模型。结果显示,GPT4 和一些中国模型在评估中领先,最高平均准确率为 60.16%。这突显了 CFinBench 的挑战性。研究作者计划公开所有数据和评估代码,以供该领域的进一步研究和开发。
公告
- 2024/07/06 论文链接:arXiv Here。
- 2024/06/20 数据集发布链接:Here。
- 2024/06/16 评估代码已开源:Here。
- 2024/06/12 所有数据和评估代码即将发布。
引用
@article{nie2024cfinbench, title={CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models}, author={Nie, Ying and Yan, Binwei and Guo, Tianyu and Liu, Hao and Wang, Haoyu and He, Wei and Zheng, Binfan and Wang, Weihao and Li, Qiang and Sun, Weijian and others}, journal={arXiv preprint arXiv:2407.02301}, year={2024} }
搜集汇总
数据集介绍

构建方式
CFinBench数据集的构建方式是通过收集中国金融从业人员的实际考试题目,并按照金融从业人员的职业发展轨迹,将其分为四个一级类别:金融学科、金融资格、金融实践和金融法律。数据集主要来源于互联网上公开的模拟考试,包括一些来自中国公司财务部门的内部考试题目。为了提高数据质量和多样性,减少数据污染问题,研究人员对收集到的数据进行了一系列严格的数据处理流程,包括数据清洗、内部和外部去重、基于GPT4的提问改写、选项打乱和多轮人工交叉验证。CFinBench数据集包含99,100个问题,涵盖43个二级类别,共有三种题型:单选题、多选题和判断题。
特点
CFinBench数据集的特点是全面性和系统性。它不仅涵盖了金融领域的知识,还涉及金融资格认证、金融实践和金融法律等多个方面。数据集的构建方式与金融从业人员的职业发展轨迹相一致,使其更具实用性和针对性。此外,CFinBench数据集的规模庞大,包含多种题型,能够更全面地评估大型语言模型在中文金融任务上的能力。
使用方法
CFinBench数据集的使用方法如下:首先,将数据集随机分为开发集、验证集和测试集,用于模型评估和超参数调整。其次,采用OpenCompass框架进行模型推理,设置温度和top p为1.0,使用贪婪解码。最后,采用准确率作为评估指标,计算模型预测结果与黄金答案之间的匹配程度。CFinBench数据集的评估结果可用于指导模型开发和优化,提升大型语言模型在中文金融任务上的性能。
背景与挑战
背景概述
CFinBench数据集旨在评估大型语言模型(LLM)在中文金融领域的知识掌握程度。该数据集由华为诺亚方舟实验室、华为GTS、华为集团财务以及南洋理工大学的研究人员共同创建,于2024年6月发布。CFinBench的设计理念与金融从业者的职业发展轨迹相吻合,分为四个一级类别:金融学科、金融资格、金融实践和金融法。数据集包含了99,100个问题,涵盖了43个二级类别,包括单选题、多选题和判断题三种题型。CFinBench的发布为评估LLM在中文金融领域的知识和推理能力提供了重要的基准,对于推动金融LLM的发展具有重要意义。
当前挑战
CFinBench数据集在构建过程中面临的主要挑战包括:1)数据来源的多样性和真实性:数据集主要来源于公开渠道的模拟考试,其中部分问题来自中国公司金融部门的内部考试,难以通过网络爬虫获取;2)数据处理的复杂性和质量保证:数据集需要进行清洗、去重、重写和选项打乱等处理,以确保数据的多样性和质量;3)评估模型的准确性和公平性:CFinBench数据集的评估需要选择合适的评估指标和评估模型,以确保评估结果的准确性和公平性。
常用场景
经典使用场景
CFinBench作为中文金融领域的大规模语言模型(LLMs)评估基准,被广泛用于测试LLMs在金融学科知识、金融资格认证、金融实践和金融法律方面的理解与应用能力。该数据集的设计理念与中文金融从业者的职业发展轨迹相契合,从而确保了评估的全面性和实用性。
解决学术问题
CFinBench的提出解决了现有中文金融领域评估基准的不足,为评估LLMs在中文金融任务上的能力提供了更全面、更专业的评价体系。通过包含99,100个问题,涵盖43个二级类别,CFinBench能够更准确地反映LLMs在金融知识理解、复杂推理和实际应用方面的能力,为金融LLMs的研究和发展提供了重要参考。
衍生相关工作
CFinBench的提出引发了金融LLMs评估领域的研究热潮,衍生出了一系列相关工作。例如,FinanceIQ和FinEval等评估基准,尽管在规模和覆盖面上有所限制,但为金融LLMs的评估提供了重要的补充。同时,CFinBench也为金融LLMs的预训练和微调提供了高质量的语料库,推动了金融LLMs在中文领域的发展。
以上内容由遇见数据集搜集并总结生成



