SUFE-AIFLM-Lab/FinEval|金融知识评估数据集|大型语言模型数据集

hugging_face2023-08-22 更新2024-03-04 收录

金融知识评估

大型语言模型

下载链接：

https://hf-mirror.com/datasets/SUFE-AIFLM-Lab/FinEval

下载链接

链接失效反馈

资源简介：

FinEval是一个包含高质量多选题的集合，涵盖金融、经济、会计和认证等多个领域，共有4,661个问题，涉及34个不同的学术科目。为了全面评估模型性能，FinEval采用了多种方法，包括零样本、少样本、仅答案和思维链提示。评估结果表明，只有GPT-4在不同提示设置下的准确率达到60%，显示出大语言模型在金融领域知识方面的巨大增长潜力。每个科目包含开发集、验证集和测试集三个分割，开发集用于少样本评估，验证集用于超参数调优，测试集用于模型评估。测试集的标签未公开，用户需提交结果以自动获取测试准确率。

提供机构：

SUFE-AIFLM-Lab

原始信息汇总

FinEval 数据集概述

数据集简介

FinEval 是一个高质量的多项选择题集合，涵盖金融、经济、会计和认证等多个领域。该数据集包含 4,661 个问题，涉及 34 个不同的学术科目。为了全面评估模型性能，FinEval 采用了多种方法，包括零样本、少样本、仅答案和思维链提示。

数据集结构

每个科目包含三个部分：开发集（dev）、验证集（val）和测试集（test）。开发集每个科目包含五个示例及其解释，用于少样本评估。验证集用于超参数调整，测试集用于模型评估。测试集的标签不公开，用户需提交结果以自动获取测试准确率。

语言

数据集的语言为中文。

性能排行榜

评估分为仅答案和思维链两种方法。以下是测试集上的平均准确率（%），报告了每个类别内科目的平均准确率。"Average" 列表示所有科目的平均准确率。仅报告每个模型在最佳设置下的结果，由四种设置（即零样本和少样本学习，以及是否使用思维链）中最高平均准确率确定。

模型	大小	金融	经济	会计	认证	平均
GPT-4	unknown	71.0	74.5	59.3	70.4	68.6
ChatGPT	175B	59.3	61.6	45.2	55.1	55.0
Qwen-7B	7B	54.5	54.4	50.3	55.8	53.8
Qwen-Chat-7B	7B	51.5	52.1	44.5	53.6	50.5
Baichuan-13B-Base	13B	52.6	50.2	43.4	53.5	50.1
Baichuan-13B-Chat	13B	51.6	51.1	41.7	52.8	49.4
ChatGLM2-6B	6B	46.5	46.4	44.5	51.5	47.4
InternLM-7B	7B	49.0	49.2	40.5	49.4	47.1
InternLM-Chat-7B	7B	48.4	49.1	40.8	49.5	47.0
LLaMA-2-Chat-70B	70B	47.1	46.7	41.5	45.7	45.2
Falcon-40B	40B	45.4	43.2	35.8	44.8	42.4
Baichuan-7B	7B	44.9	41.5	34.9	45.6	42.0
LLaMA-2-Chat-13B	13B	41.6	38.4	34.1	42.1	39.3
Ziya-LLaMA-13B-v1	13B	43.3	36.9	34.3	41.2	39.3
Bloomz-7b1-mt	7B	41.4	42.1	32.5	39.7	38.8
LLaMA-2-13B	13B	39.5	38.6	31.6	39.6	37.4
ChatGLM-6B	6B	38.8	36.2	33.8	39.1	37.2
Chinese-Llama-2-7B	7B	37.8	37.8	31.4	36.7	35.9
Chinese-Alpaca-Plus-7B	7B	30.5	33.4	32.7	38.5	34.0
moss-moon-003-sft	16B	35.6	34.3	28.7	35.6	33.7
LLaMA-2-Chat-7B	7B	35.6	31.8	31.9	34.0	33.5
LLaMA-2-7B	7B	34.9	36.4	31.4	31.6	33.4
AquilaChat-7B	7B	34.2	31.3	29.8	36.2	33.1
moss-moon-003-base	16B	32.2	33.1	29.2	30.7	31.2
Aquila-7B	7B	27.1	31.6	32.4	33.6	31.2
LLaMA-13B	13B	33.1	29.7	27.2	33.6	31.1
Falcon-7B	7B	28.5	28.2	27.5	27.4	27.9

数据加载

python from datasets import load_dataset dataset = load_dataset(r"SUFE-AIFLM-Lab/FinEval", name="finance")

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录