FinEval
收藏arXiv2023-08-19 更新2024-06-21 收录
下载链接:
https://github.com/SUFE-AIFLM-Lab/FinEval
下载链接
链接失效反馈官方服务:
资源简介:
FinEval数据集由上海财经大学创建,包含4661个高质量的多项选择题,覆盖金融、经济、会计和证书四大领域,共涉及34个不同的学术科目。数据主要来源于公开渠道的模拟考试题目,旨在评估大型语言模型在金融领域的知识和应用能力。该数据集适用于金融领域知识评估,特别是在中国语境下的应用,如金融虚拟助手和金融犯罪检测等。
FinEval dataset was developed by Shanghai University of Finance and Economics. It contains 4,661 high-quality multiple-choice questions covering four major fields: finance, economics, accounting, and certification, involving a total of 34 distinct academic disciplines. Most of the data is sourced from simulated exam questions from public channels. Its core purpose is to evaluate the knowledge and application capabilities of large language models in the financial domain. This dataset is applicable to financial domain knowledge assessment, especially for applications in the Chinese context such as financial virtual assistants and financial crime detection.
提供机构:
上海财经大学
创建时间:
2023-08-19
搜集汇总
数据集介绍

构建方式
FinEval数据集的构建方式主要包括数据收集、处理和分类。数据收集阶段,主要从公开渠道获取模拟考试题目,包括中国顶尖大学的教材习题和模拟题,以及部分证书相关的模拟考试题目。数据处理阶段,对收集到的数据进行格式化处理,包括将数学公式转换为LaTeX格式,并将所有题目转换为包含四个选项的结构化格式。数据分类阶段,将题目分为四个主要类别:金融、经济、会计和证书,并进一步细分为34个不同的学科领域。
使用方法
FinEval数据集的使用方法主要包括以下几个方面:首先,用户需要将模型的评估结果文件发送到指定的邮箱地址。其次,评估指标为准确率,我们将根据评估结果为每个模型分配一个确定的分数,并维护一个公开的排行榜。需要注意的是,虽然开发集和验证集的标签已经公开,但测试集的标签并未公开。最后,用户可以通过不同的提示方式对模型进行评估,包括零样本、少样本、仅回答和思维链提示。
背景与挑战
背景概述
随着大型语言模型(LLMs)在自然语言处理任务中的出色表现,其在特定领域,尤其是金融领域的能力评估成为了一个新的研究热点。FinEval数据集应运而生,这是一个为评估大型语言模型在金融领域知识方面的能力而设计的基准。该数据集由上海财经大学经济学院人工智能金融大模型实验室的Liwen Zhang和Weige Cai等人于2023年创建,旨在填补中国金融领域大型语言模型评估基准的空白。FinEval包含4,661个高质量的多选题,涵盖了金融、经济、会计和证书等34个不同学科。该数据集使用多种提示类型,包括零样本和少样本提示,以及仅答案和思维链提示,以确保模型性能评估的全面性。通过在FinEval上评估最先进的中文和英文LLMs,结果显示只有GPT-4在不同提示设置下达到了接近70%的准确率,这表明LLMs在金融领域知识方面仍有巨大的增长潜力。FinEval的创建不仅提供了一个更全面的金融知识评估基准,而且为大型语言模型在金融领域的进一步发展奠定了基础。
当前挑战
尽管FinEval数据集在评估LLMs的金融领域知识方面取得了显著进展,但仍面临一些挑战。首先,所解决的领域问题是大型语言模型在金融领域的应用和评估。虽然FinEval提供了4,661个高质量的多选题,但金融领域的复杂性及其专业术语的丰富性要求LLMs具备深入理解和推理能力。其次,构建过程中遇到的挑战包括数据收集和处理的难度。FinEval的数据主要来源于模拟考试,这些数据难以通过在线抓取获得,需要通过公共渠道收集和处理。此外,数据集的构建还需要考虑到不同学科和不同难度水平的平衡,以确保评估的全面性和公正性。最后,FinEval还面临模型评估方法的挑战。虽然数据集使用了多种提示类型,但在思维链提示设置下,所有模型的平均准确率均有所下降,这表明需要进一步研究如何使用特定条件下的提示链来提高模型性能。
常用场景
经典使用场景
在金融领域,大型语言模型(LLMs)的应用正日益受到关注。FinEval数据集作为评估LLMs在金融领域知识掌握程度的重要工具,涵盖了金融、经济、会计和证书四个方面的知识。该数据集包含4,661个高质量的多选题,涉及34个不同的学科。FinEval采用多种提示类型,包括零样本和少样本提示,以及仅回答和思维链提示,以全面评估模型的性能。FinEval为LLMs在金融领域的应用提供了一个基准,有助于推动金融领域LLMs的研究和发展。
解决学术问题
FinEval数据集解决了当前金融领域LLMs评估标准缺失的问题。现有的评估方法主要针对通用LLMs,而在金融领域,LLMs的应用需要具备更加专业和深入的知识。FinEval数据集的推出,为评估LLMs在金融领域的知识掌握程度提供了一个全面和准确的基准。此外,FinEval数据集还解决了中国金融领域数据匮乏的问题,为LLMs在金融领域的应用提供了丰富的数据资源。
实际应用
FinEval数据集在实际应用中具有广泛的应用场景。例如,在金融虚拟助手方面,LLMs可以根据FinEval数据集的知识储备,为用户提供专业的金融咨询和服务。在金融犯罪检测方面,LLMs可以利用FinEval数据集的知识,识别和预警潜在的金融风险。在欺诈评估方面,LLMs可以基于FinEval数据集的知识,对可疑交易进行分析和评估。此外,FinEval数据集还可以用于金融教育和培训,帮助金融从业者提升专业知识和技能。
数据集最近研究
最新研究方向
在金融领域知识评估方面,FinEval 数据集的提出标志着对大型语言模型(LLMs)在特定领域应用能力的深入探索。该数据集专注于评估 LLMs 在金融、经济、会计和证书等领域的知识水平,为模型在金融领域的应用提供了新的评估基准。FinEval 的创新之处在于其数据来源于模拟考试,覆盖了 34 个不同的学术科目,确保了评估的全面性和准确性。此外,FinEval 采用了多种提示类型,包括零样本和少样本提示,以及仅答案和思维链提示,以全面评估模型的性能。通过在 FinEval 上评估最先进的中文和英文 LLMs,研究发现 GPT-4 在不同提示设置下实现了接近 70% 的准确率,这表明 LLMs 在金融领域知识方面仍有巨大的发展潜力。FinEval 的提出不仅填补了中文金融领域评估基准的空白,也为 LLMs 在金融领域的进一步研究和应用提供了重要的参考和推动力。
相关研究论文
- 1FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models上海财经大学 · 2023年
以上内容由遇见数据集搜集并总结生成



