five

SUFE-AIFLM-Lab/FinEval

收藏
Hugging Face2023-08-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SUFE-AIFLM-Lab/FinEval
下载链接
链接失效反馈
资源简介:
FinEval是一个包含高质量多选题的集合,涵盖金融、经济、会计和认证等多个领域,共有4,661个问题,涉及34个不同的学术科目。为了全面评估模型性能,FinEval采用了多种方法,包括零样本、少样本、仅答案和思维链提示。评估结果表明,只有GPT-4在不同提示设置下的准确率达到60%,显示出大语言模型在金融领域知识方面的巨大增长潜力。每个科目包含开发集、验证集和测试集三个分割,开发集用于少样本评估,验证集用于超参数调优,测试集用于模型评估。测试集的标签未公开,用户需提交结果以自动获取测试准确率。

FinEval is a collection of high-quality multiple-choice questions covering multiple domains including finance, economics, accounting, certification and others, with a total of 4,661 questions spanning 34 distinct academic subjects. To comprehensively evaluate model performance, FinEval adopts multiple prompting methods, including zero-shot, few-shot, answer-only, and Chain-of-Thought (CoT) prompting. Evaluation results show that only GPT-4 achieves an accuracy of 60% across different prompting settings, demonstrating the significant growth potential of Large Language Models (LLMs) in financial domain knowledge. Each subject contains three splits: development set, validation set, and test set. The development set is used for few-shot evaluation, the validation set for hyperparameter tuning, and the test set for model assessment. The labels of the test set are not publicly disclosed, and users are required to submit their results to automatically acquire the test accuracy.
提供机构:
SUFE-AIFLM-Lab
原始信息汇总

FinEval 数据集概述

数据集简介

FinEval 是一个高质量的多项选择题集合,涵盖金融、经济、会计和认证等多个领域。该数据集包含 4,661 个问题,涉及 34 个不同的学术科目。为了全面评估模型性能,FinEval 采用了多种方法,包括零样本、少样本、仅答案和思维链提示。

数据集结构

每个科目包含三个部分:开发集(dev)、验证集(val)和测试集(test)。开发集每个科目包含五个示例及其解释,用于少样本评估。验证集用于超参数调整,测试集用于模型评估。测试集的标签不公开,用户需提交结果以自动获取测试准确率。

语言

数据集的语言为中文。

性能排行榜

评估分为仅答案和思维链两种方法。以下是测试集上的平均准确率(%),报告了每个类别内科目的平均准确率。"Average" 列表示所有科目的平均准确率。仅报告每个模型在最佳设置下的结果,由四种设置(即零样本和少样本学习,以及是否使用思维链)中最高平均准确率确定。

模型 大小 金融 经济 会计 认证 平均
GPT-4 unknown 71.0 74.5 59.3 70.4 68.6
ChatGPT 175B 59.3 61.6 45.2 55.1 55.0
Qwen-7B 7B 54.5 54.4 50.3 55.8 53.8
Qwen-Chat-7B 7B 51.5 52.1 44.5 53.6 50.5
Baichuan-13B-Base 13B 52.6 50.2 43.4 53.5 50.1
Baichuan-13B-Chat 13B 51.6 51.1 41.7 52.8 49.4
ChatGLM2-6B 6B 46.5 46.4 44.5 51.5 47.4
InternLM-7B 7B 49.0 49.2 40.5 49.4 47.1
InternLM-Chat-7B 7B 48.4 49.1 40.8 49.5 47.0
LLaMA-2-Chat-70B 70B 47.1 46.7 41.5 45.7 45.2
Falcon-40B 40B 45.4 43.2 35.8 44.8 42.4
Baichuan-7B 7B 44.9 41.5 34.9 45.6 42.0
LLaMA-2-Chat-13B 13B 41.6 38.4 34.1 42.1 39.3
Ziya-LLaMA-13B-v1 13B 43.3 36.9 34.3 41.2 39.3
Bloomz-7b1-mt 7B 41.4 42.1 32.5 39.7 38.8
LLaMA-2-13B 13B 39.5 38.6 31.6 39.6 37.4
ChatGLM-6B 6B 38.8 36.2 33.8 39.1 37.2
Chinese-Llama-2-7B 7B 37.8 37.8 31.4 36.7 35.9
Chinese-Alpaca-Plus-7B 7B 30.5 33.4 32.7 38.5 34.0
moss-moon-003-sft 16B 35.6 34.3 28.7 35.6 33.7
LLaMA-2-Chat-7B 7B 35.6 31.8 31.9 34.0 33.5
LLaMA-2-7B 7B 34.9 36.4 31.4 31.6 33.4
AquilaChat-7B 7B 34.2 31.3 29.8 36.2 33.1
moss-moon-003-base 16B 32.2 33.1 29.2 30.7 31.2
Aquila-7B 7B 27.1 31.6 32.4 33.6 31.2
LLaMA-13B 13B 33.1 29.7 27.2 33.6 31.1
Falcon-7B 7B 28.5 28.2 27.5 27.4 27.9

数据加载

python from datasets import load_dataset dataset = load_dataset(r"SUFE-AIFLM-Lab/FinEval", name="finance")

搜集汇总
数据集介绍
main_image_url
构建方式
FinEval数据集的构建汇集了金融、经济、会计及认证等多个领域的优质多项选择题,共计4,661个问题,跨越34个不同的学科。数据集设计旨在通过零样本、少样本、仅答案和思维链路提示等多种方法,全面评估模型的性能。每个学科包含开发集、验证集和测试集三个部分,其中开发集提供五个样例及解释,用于少样本评估;验证集用于超参数调整;测试集则用于模型评估,并不公开标签,用户需提交结果以自动获取测试准确度。
使用方法
使用FinEval数据集时,用户首先需要通过HuggingFace的datasets库加载数据集。之后,可以根据不同的评估需求,利用数据集中的开发集、验证集和测试集对模型进行训练和评估。用户需遵守数据集的许可协议,并在使用数据集的研究成果中引用相关论文。
背景与挑战
背景概述
FinEval数据集,由上海财经大学金融学院人工智能与金融实验室(AIFLM-Lab)于2023年创建,旨在为大规模语言模型在金融领域知识评估提供全面的基准。该数据集涵盖了金融、经济、会计及各类认证考试等领域的高质量多项选择题,共计4661个问题,跨越34个不同的学术科目。FinEval的构建,不仅丰富了金融领域的数据资源,也为评估大型语言模型在金融知识领域的表现提供了新的视角。
当前挑战
该数据集在构建过程中所面临的挑战主要包括:一是如何确保问题的高质量和准确性,以真实反映金融领域的专业知识;二是如何设计有效的评估机制,以全面衡量模型在不同金融子领域的表现;三是如何在保持数据集规模的同时,确保其对于模型的挑战性和区分度。在应用层面,FinEval数据集所解决的领域问题是推动大型语言模型在金融领域的知识理解和应用,但当前模型在金融领域的知识掌握程度仍有待提高,特别是在复杂金融概念的理解和精细区分上。
常用场景
经典使用场景
在金融领域知识的评估中,FinEval数据集提供了一个高质量的多项选择题集合,覆盖了金融、经济、会计及各类认证等多个学术领域。该数据集特别适用于对大型语言模型在金融领域知识掌握程度进行评估,通过zero-shot、few-shot、answer-only及chain-of-thought等多种方式,为模型的性能评价提供了全面的考量。
解决学术问题
FinEval数据集解决了传统评估方法中缺乏全面评估金融领域知识的问题。它通过模拟考试数据,为学术研究提供了一个涵盖广泛的大型语言模型评估的基准,有助于研究人员深入理解模型在金融知识领域的表现和提升空间。
实际应用
在实际应用中,FinEval数据集可用于金融机构的员工培训和考核,以及金融知识问答系统的开发与测试。它能够帮助金融机构评估员工对金融知识的掌握程度,并为金融科技产品提供有效的数据支撑。
数据集最近研究
最新研究方向
在金融知识领域,FinEval数据集的构建与评估为大型语言模型提供了全新的研究方向。该数据集通过涵盖金融、经济、会计及认证等多个学科领域的高质量多项选择题,对模型在零样本、少样本、仅答案以及思维链路提示等不同设置下的表现进行了全面评估。近期研究表明,GPT-4在FinEval数据集上取得了相对较高的准确率,然而仍有较大的提升空间。这一研究不仅为金融领域知识的评价提供了更为全面的基准,而且对于推动大型语言模型在金融专业知识上的应用与发展具有重要的指导意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作