Fin-Eva Version 1.0 金融领域中文语言专业数据评测集

Name: Fin-Eva Version 1.0 金融领域中文语言专业数据评测集
Creator: 蚂蚁集团、上海财经大学
License: 暂无描述

github2024-05-31 收录

下载链接：

https://github.com/alipay/financial_evaluation_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

蚂蚁集团、上海财经大学联合推出金融评测集Fin-Eva Version 1.0，覆盖财富管理、保险、投资研究等多个金融场景以及金融专业主题学科，总评测题数目达到1.3w+。蚂蚁数据源包括各业务领域数据、互联网公开数据，经过数据脱敏、文本聚类、语料精筛、数据改写等处理过程后，结合金融领域专家的评审构建而成。上海财经大学数据源主要基于相关领域权威性考试的各类真题和模拟题对知识大纲的要求，由上海财经大学统计与管理学院张立文副教授课题组牵头，金融学院闵敏副教授及其他各学院老师协助完成，所有数据均为原创，这保证了数据源的准确性和权威性。蚂蚁部分涵盖金融认知、金融知识、金融逻辑、内容生成以及安全合规五大类能力33个子维度共8445个测评题；上财部分涵盖金融，经济，会计和证书等四大领域，包括4661个问题，涵盖34个不同的学科。 Fin-Eva Version 1.0 全部采用单选题这类有固定答案的问题，配合相应指令让模型输出标准格式。目前Fin-Eva Version 1.0对外开放评测数据，未来持续迭代并开放平台化评测托管服务，为行业提供一站式评估。

Ant Group and Shanghai University of Finance and Economics (SUFE) jointly launched the financial evaluation dataset Fin-Eva Version 1.0, which covers multiple financial scenarios such as wealth management, insurance, investment research, as well as financial professional thematic disciplines, with a total of over 13,000 evaluation questions. The data sources of Ant Group include data from various business domains and publicly available internet data. It is constructed after undergoing processing procedures such as data desensitization, text clustering, corpus fine screening, and data rewriting, combined with reviews from financial domain experts. The data sources of SUFE are mainly based on the requirements of knowledge outlines from various real questions and simulation questions of authoritative examinations in related fields. It was led by the research group of Associate Professor Zhang Liwen from the School of Statistics and Management of Shanghai University of Finance and Economics, and assisted by Associate Professor Min Min from the School of Finance and teachers from other colleges. All data is original, which ensures the accuracy and authority of the data sources. The Ant Group section covers 8,445 evaluation questions across 33 sub-dimensions under 5 capability categories: financial cognition, financial knowledge, financial logic, content generation, and security compliance. The SUFE section covers 4,661 questions across 34 different disciplines under four major fields: finance, economics, accounting, and certifications. Fin-Eva Version 1.0 exclusively uses single-choice questions with fixed answers, paired with corresponding instructions to prompt models to output in standard formats. Currently, Fin-Eva Version 1.0 has made its evaluation data open to the public. In the future, it will continue to iterate and launch platform-based evaluation hosting services to provide one-stop evaluation solutions for the industry.

提供机构：

蚂蚁集团、上海财经大学

原始信息汇总

数据集概述

数据集名称

Fin-Eva Version 1.0

发布机构

蚂蚁集团
上海财经大学

数据集内容

蚂蚁部分：涵盖金融认知、金融知识、金融逻辑、内容生成以及安全合规五大类能力，共33个子维度，包含8445个测评题。
上财部分：涵盖金融、经济、会计和证书四大领域，包含4661个问题，涉及34个不同的学科。

数据集特点

全部采用单选题，有固定答案。
数据源包括蚂蚁集团的业务领域数据和互联网公开数据，以及上海财经大学的权威性考试真题和模拟题。
数据经过脱敏、文本聚类、语料精筛、数据改写等处理，并由金融领域专家评审。

数据集结构

蚂蚁评测数据：按能力维度划分一级目录，包含各子维度任务。数据文件分为dev和test集，区别在于answer列是否有值。
上财评测数据：通过subject_map.json组装，统一使用特定的prompt模板。

使用方式

数据集位于data目录下，可通过执行example.py中的dataloader快速加载数据。
提供prompt模板，用于组装数据集并构建模型输入。

开放与迭代

目前对外开放评测数据，未来将持续迭代并开放平台化评测托管服务。

搜集汇总

数据集介绍

构建方式

Fin-Eva Version 1.0数据集由蚂蚁集团与上海财经大学联合构建，涵盖了财富管理、保险、投资研究等多个金融场景。蚂蚁集团的数据源包括各业务领域数据和互联网公开数据，经过数据脱敏、文本聚类、语料精筛和数据改写等处理后，结合金融领域专家的评审构建而成。上海财经大学的数据源则基于相关领域权威性考试的真题和模拟题，由统计与管理学院张立文副教授课题组牵头，金融学院闵敏副教授及其他各学院老师协助完成，确保数据的准确性和权威性。

使用方法

使用者可以通过执行example.py中的dataloader快速加载数据。蚂蚁评测数据的一级目录按能力维度划分，二级目录包含各子维度任务。每个数据文件前部是dev数据，后部是test数据，区别在于answer列是否有值。src/utils/dataloader.py包含各子任务的prompt指令模版，将data目录下的数据集组装成完整的测评集，构建成最终的模型输入。上财评测数据通过subject_map.json组装，prompt模版统一为特定格式。

背景与挑战

背景概述

Fin-Eva Version 1.0，由蚂蚁集团与上海财经大学联合推出，是一个专注于金融领域的中文语言专业数据评测集。该数据集于近期发布，旨在评估和提升金融大模型在多个金融场景中的知识理解和应用能力。蚂蚁集团的数据源涵盖了各业务领域及互联网公开数据，经过多重处理后，结合金融领域专家的评审构建而成。上海财经大学则基于相关领域权威性考试的真题和模拟题，由张立文副教授课题组牵头，确保数据的准确性和权威性。Fin-Eva Version 1.0的推出，不仅为金融大模型的评估提供了标准化工具，也为金融领域的研究和应用提供了宝贵的数据资源。

当前挑战

Fin-Eva Version 1.0在构建过程中面临多项挑战。首先，数据源的多样性和复杂性要求严格的数据脱敏和文本处理技术，以确保数据的隐私和安全。其次，金融领域的专业性和广泛性使得数据集的构建需要深入的领域知识和专家评审，以保证评测题目的准确性和权威性。此外，评测集的开放性和可扩展性也是一个重要挑战，需要设计灵活的评测框架和持续的迭代机制，以适应不断变化的金融环境和模型需求。最后，评测结果的公正性和透明性也是一大挑战，需要通过黑盒测试和白盒测试的结合，确保评测的公正性和有效性。

常用场景

经典使用场景

Fin-Eva Version 1.0 数据集的经典使用场景主要集中在金融领域的专业评测。该数据集通过丰富的金融知识题库，评估大模型在金融认知、金融知识、金融逻辑、内容生成及安全合规五大类能力的表现。具体应用包括但不限于：评估金融大模型在财富管理、保险、投资研究等实际金融场景中的知识理解和应用能力，以及其在多学科金融领域的综合表现。

解决学术问题

Fin-Eva Version 1.0 数据集解决了金融领域大模型评估中的多个学术研究问题。首先，它提供了一个系统化的评测框架，帮助研究者量化和比较不同金融大模型的性能。其次，通过涵盖广泛的金融知识领域和复杂的金融任务，该数据集有助于揭示模型在处理实际金融问题时的局限性和优势，从而推动金融大模型的优化和创新。

实际应用

在实际应用中，Fin-Eva Version 1.0 数据集被广泛用于金融大模型的开发和验证。金融机构和科技公司利用该数据集评估其金融大模型在处理复杂金融任务和生成专业金融文本方面的能力，确保模型在实际应用中的准确性和可靠性。此外，该数据集还支持金融教育和培训，帮助专业人员提升金融知识和技能。

数据集最近研究