SUFE-AIFLM-Lab/FinEval|金融知识评估数据集|大型语言模型数据集
收藏FinEval 数据集概述
数据集简介
FinEval 是一个高质量的多项选择题集合,涵盖金融、经济、会计和认证等多个领域。该数据集包含 4,661 个问题,涉及 34 个不同的学术科目。为了全面评估模型性能,FinEval 采用了多种方法,包括零样本、少样本、仅答案和思维链提示。
数据集结构
每个科目包含三个部分:开发集(dev)、验证集(val)和测试集(test)。开发集每个科目包含五个示例及其解释,用于少样本评估。验证集用于超参数调整,测试集用于模型评估。测试集的标签不公开,用户需提交结果以自动获取测试准确率。
语言
数据集的语言为中文。
性能排行榜
评估分为仅答案和思维链两种方法。以下是测试集上的平均准确率(%),报告了每个类别内科目的平均准确率。"Average" 列表示所有科目的平均准确率。仅报告每个模型在最佳设置下的结果,由四种设置(即零样本和少样本学习,以及是否使用思维链)中最高平均准确率确定。
模型 | 大小 | 金融 | 经济 | 会计 | 认证 | 平均 |
---|---|---|---|---|---|---|
GPT-4 | unknown | 71.0 | 74.5 | 59.3 | 70.4 | 68.6 |
ChatGPT | 175B | 59.3 | 61.6 | 45.2 | 55.1 | 55.0 |
Qwen-7B | 7B | 54.5 | 54.4 | 50.3 | 55.8 | 53.8 |
Qwen-Chat-7B | 7B | 51.5 | 52.1 | 44.5 | 53.6 | 50.5 |
Baichuan-13B-Base | 13B | 52.6 | 50.2 | 43.4 | 53.5 | 50.1 |
Baichuan-13B-Chat | 13B | 51.6 | 51.1 | 41.7 | 52.8 | 49.4 |
ChatGLM2-6B | 6B | 46.5 | 46.4 | 44.5 | 51.5 | 47.4 |
InternLM-7B | 7B | 49.0 | 49.2 | 40.5 | 49.4 | 47.1 |
InternLM-Chat-7B | 7B | 48.4 | 49.1 | 40.8 | 49.5 | 47.0 |
LLaMA-2-Chat-70B | 70B | 47.1 | 46.7 | 41.5 | 45.7 | 45.2 |
Falcon-40B | 40B | 45.4 | 43.2 | 35.8 | 44.8 | 42.4 |
Baichuan-7B | 7B | 44.9 | 41.5 | 34.9 | 45.6 | 42.0 |
LLaMA-2-Chat-13B | 13B | 41.6 | 38.4 | 34.1 | 42.1 | 39.3 |
Ziya-LLaMA-13B-v1 | 13B | 43.3 | 36.9 | 34.3 | 41.2 | 39.3 |
Bloomz-7b1-mt | 7B | 41.4 | 42.1 | 32.5 | 39.7 | 38.8 |
LLaMA-2-13B | 13B | 39.5 | 38.6 | 31.6 | 39.6 | 37.4 |
ChatGLM-6B | 6B | 38.8 | 36.2 | 33.8 | 39.1 | 37.2 |
Chinese-Llama-2-7B | 7B | 37.8 | 37.8 | 31.4 | 36.7 | 35.9 |
Chinese-Alpaca-Plus-7B | 7B | 30.5 | 33.4 | 32.7 | 38.5 | 34.0 |
moss-moon-003-sft | 16B | 35.6 | 34.3 | 28.7 | 35.6 | 33.7 |
LLaMA-2-Chat-7B | 7B | 35.6 | 31.8 | 31.9 | 34.0 | 33.5 |
LLaMA-2-7B | 7B | 34.9 | 36.4 | 31.4 | 31.6 | 33.4 |
AquilaChat-7B | 7B | 34.2 | 31.3 | 29.8 | 36.2 | 33.1 |
moss-moon-003-base | 16B | 32.2 | 33.1 | 29.2 | 30.7 | 31.2 |
Aquila-7B | 7B | 27.1 | 31.6 | 32.4 | 33.6 | 31.2 |
LLaMA-13B | 13B | 33.1 | 29.7 | 27.2 | 33.6 | 31.1 |
Falcon-7B | 7B | 28.5 | 28.2 | 27.5 | 27.4 | 27.9 |
数据加载
python from datasets import load_dataset dataset = load_dataset(r"SUFE-AIFLM-Lab/FinEval", name="finance")
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录