CFinBench|金融领域数据集|语言模型评估数据集

arXiv2024-07-02 更新2024-07-04 收录

金融领域

语言模型评估

下载链接：

https://cfinbench.github.io/

下载链接

链接失效反馈

资源简介：

CFinBench是由华为诺亚方舟实验室等机构精心打造的中文金融领域大型语言模型评估基准，包含99,100条问题，覆盖43个细分领域，涉及单选、多选和判断题三种题型。数据集内容源自网络公开的模拟考试，经过多轮数据清洗和人工验证，确保了数据的高质量和广泛适用性。该数据集旨在全面评估模型在金融知识、资格认证、实际操作及法律法规等方面的能力，为金融领域的大型语言模型研究和应用提供了一个高标准、全面的测试平台。

提供机构：

华为诺亚方舟实验室, 华为GTS, 华为集团财务, 南洋理工大学

创建时间：

2024-07-02

原始信息汇总

CFinBench 数据集概述

关于数据集

CFinBench 是一个综合评估基准，专门设计用于在中国背景下评估大型语言模型（LLMs）的金融知识。该基准围绕四个主要类别构建：金融主题、金融资格、金融实践和金融法律。这些类别分别考察 LLMs 在基础金融知识、获取必要金融认证、履行实际金融角色以及遵守金融法律法规方面的能力。CFinBench 包含 99,100 个问题，涵盖 43 个子类别和三种类型的问题：单选、多选和判断题。

该基准用于评估 50 个代表性 LLMs，包括 GPT4 和几个面向中国的模型。结果显示，GPT4 和一些中国模型在评估中领先，最高平均准确率为 60.16%。这突显了 CFinBench 的挑战性。研究作者计划公开所有数据和评估代码，以供该领域的进一步研究和开发。

公告

2024/07/06 论文链接：arXiv Here。
2024/06/20 数据集发布链接：Here。
2024/06/16 评估代码已开源：Here。
2024/06/12 所有数据和评估代码即将发布。

引用

@article{nie2024cfinbench, title={CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models}, author={Nie, Ying and Yan, Binwei and Guo, Tianyu and Liu, Hao and Wang, Haoyu and He, Wei and Zheng, Binfan and Wang, Weihao and Li, Qiang and Sun, Weijian and others}, journal={arXiv preprint arXiv:2407.02301}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

CFinBench数据集的构建方式是通过收集中国金融从业人员的实际考试题目，并按照金融从业人员的职业发展轨迹，将其分为四个一级类别：金融学科、金融资格、金融实践和金融法律。数据集主要来源于互联网上公开的模拟考试，包括一些来自中国公司财务部门的内部考试题目。为了提高数据质量和多样性，减少数据污染问题，研究人员对收集到的数据进行了一系列严格的数据处理流程，包括数据清洗、内部和外部去重、基于GPT4的提问改写、选项打乱和多轮人工交叉验证。CFinBench数据集包含99,100个问题，涵盖43个二级类别，共有三种题型：单选题、多选题和判断题。

特点

CFinBench数据集的特点是全面性和系统性。它不仅涵盖了金融领域的知识，还涉及金融资格认证、金融实践和金融法律等多个方面。数据集的构建方式与金融从业人员的职业发展轨迹相一致，使其更具实用性和针对性。此外，CFinBench数据集的规模庞大，包含多种题型，能够更全面地评估大型语言模型在中文金融任务上的能力。

使用方法

CFinBench数据集的使用方法如下：首先，将数据集随机分为开发集、验证集和测试集，用于模型评估和超参数调整。其次，采用OpenCompass框架进行模型推理，设置温度和top p为1.0，使用贪婪解码。最后，采用准确率作为评估指标，计算模型预测结果与黄金答案之间的匹配程度。CFinBench数据集的评估结果可用于指导模型开发和优化，提升大型语言模型在中文金融任务上的性能。

背景与挑战

背景概述

CFinBench数据集旨在评估大型语言模型（LLM）在中文金融领域的知识掌握程度。该数据集由华为诺亚方舟实验室、华为GTS、华为集团财务以及南洋理工大学的研究人员共同创建，于2024年6月发布。CFinBench的设计理念与金融从业者的职业发展轨迹相吻合，分为四个一级类别：金融学科、金融资格、金融实践和金融法。数据集包含了99,100个问题，涵盖了43个二级类别，包括单选题、多选题和判断题三种题型。CFinBench的发布为评估LLM在中文金融领域的知识和推理能力提供了重要的基准，对于推动金融LLM的发展具有重要意义。

当前挑战

CFinBench数据集在构建过程中面临的主要挑战包括：1）数据来源的多样性和真实性：数据集主要来源于公开渠道的模拟考试，其中部分问题来自中国公司金融部门的内部考试，难以通过网络爬虫获取；2）数据处理的复杂性和质量保证：数据集需要进行清洗、去重、重写和选项打乱等处理，以确保数据的多样性和质量；3）评估模型的准确性和公平性：CFinBench数据集的评估需要选择合适的评估指标和评估模型，以确保评估结果的准确性和公平性。

常用场景

经典使用场景

CFinBench作为中文金融领域的大规模语言模型（LLMs）评估基准，被广泛用于测试LLMs在金融学科知识、金融资格认证、金融实践和金融法律方面的理解与应用能力。该数据集的设计理念与中文金融从业者的职业发展轨迹相契合，从而确保了评估的全面性和实用性。

解决学术问题

CFinBench的提出解决了现有中文金融领域评估基准的不足，为评估LLMs在中文金融任务上的能力提供了更全面、更专业的评价体系。通过包含99,100个问题，涵盖43个二级类别，CFinBench能够更准确地反映LLMs在金融知识理解、复杂推理和实际应用方面的能力，为金融LLMs的研究和发展提供了重要参考。

衍生相关工作

CFinBench的提出引发了金融LLMs评估领域的研究热潮，衍生出了一系列相关工作。例如，FinanceIQ和FinEval等评估基准，尽管在规模和覆盖面上有所限制，但为金融LLMs的评估提供了重要的补充。同时，CFinBench也为金融LLMs的预训练和微调提供了高质量的语料库，推动了金融LLMs在中文领域的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

TPTP

TPTP（Thousands of Problems for Theorem Provers）是一个包含大量逻辑问题的数据集，主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题，如一阶逻辑、高阶逻辑、命题逻辑等。

www.tptp.org 收录

O*NET

O*NET（Occupational Information Network）是一个综合性的职业信息数据库，提供了关于各种职业的详细描述，包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。

www.onetonline.org 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

中性笔商品在不同地区天猫平台的销售渗透率分析数据

销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析，对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置，具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商（生产厂商）和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理：（1）数据收集：收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息，具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。（2）数据预处理：对采集到的原始数据进行处理，去除缺失和异常数据。 2.建立销售渗透率分析模型：（1）计算本季度月均潜在销量：本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量；（2）计算本季度月均销售渗透率：本季度月均销售渗透率=（本季度平均月销量/本季度月均潜在销量）*100%；（3）销售渗透率分析：基于计算出的销售渗透率，根据区县划分不同的类别和级别，≥90%以上标记为“销售渗透率高”，50%-90%区间（不含50%和90%）内标记为“销售渗透率中等”，≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。

浙江省数据知识产权登记平台收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。