UCFE: User-Centric Financial Expertise Benchmark

Name: UCFE: User-Centric Financial Expertise Benchmark
Creator: 香港中文大学深圳分校, 南京大学, Fin AI
Published: 2024-10-22 14:47:43
License: 暂无描述

arXiv2024-10-22 更新2024-10-22 收录

下载链接：

https://github.com/TobyYang7/UCFE-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

UCFE: User-Centric Financial Expertise Benchmark 是一个用于评估大型语言模型（LLMs）处理复杂金融任务能力的创新框架。该数据集由香港中文大学深圳分校和南京大学等机构创建，包含330个数据点，涵盖多种用户意图和交互。数据集的创建基于804名参与者的用户研究反馈，旨在模拟金融场景中的复杂交互。UCFE数据集主要用于评估LLMs在金融领域的应用，特别是其在动态金融环境中的适应性和用户满意度。

UCFE: User-Centric Financial Expertise Benchmark is an innovative framework for evaluating the capabilities of large language models (LLMs) in handling complex financial tasks. Developed by institutions including The Chinese University of Hong Kong, Shenzhen and Nanjing University, this dataset contains 330 data points covering diverse user intents and interactions. Built upon user study feedback from 804 participants, it aims to simulate complex interactions in financial scenarios. The UCFE dataset is primarily used to assess the application of LLMs in the financial domain, particularly their adaptability in dynamic financial environments and user satisfaction.

提供机构：

香港中文大学深圳分校, 南京大学, Fin AI

创建时间：

2024-10-18

原始信息汇总

UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

概述

UCFE Benchmark 提供了一个以用户为中心的框架，用于评估大型语言模型（LLMs）在复杂金融任务中的表现。完整的基准数据集可在 UCFE_bench.json 中获取。

如何运行模拟器

按照以下步骤设置并运行模拟器：

在 config 文件夹中设置您的 API 密钥。
使用以下命令运行模拟器：python run_ckpt.py

如何评估模型

您可以评估单个模型或运行所有模型的评估：

评估单个模型：bash scripts/eval_model.sh
评估所有模型：bash scripts/eval_all.sh

搜集汇总

数据集介绍

构建方式

UCFE数据集的构建基于用户为中心的金融专业知识基准，通过结合人类专家评估和动态任务特定交互的方式，模拟复杂的金融场景。首先，研究团队进行了涉及804名参与者的用户研究，收集了他们对金融任务的反馈。基于这些反馈，创建了一个包含广泛用户意图和交互的数据集，作为基准12个大型语言模型（LLMs）服务的基础。

特点

UCFE数据集的主要特点在于其用户中心的设计和动态交互的模拟。数据集根据初步调查和研究，将目标用户群体分为四类：分析师、金融专业人士、监管专业人士和普通公众。通过问卷调查，收集了各群体的主要需求和实际应用，从而细化了用户类别，使评估更具针对性。此外，数据集在少样本任务中采用了任务导向的方法，用户通过连续交互表达其专业需求和具体任务要求，确保LLMs在实际金融情境中的表现更为准确。

使用方法

UCFE数据集的使用方法主要通过LLM-as-Judge方法进行评估，该方法允许直接比较模型性能与人类专家偏好，同时解决潜在的偏见问题。评估过程包括选择金融特定任务、生成用户与AI助手的对话、基于源信息的评估提示创建、对话输出的成对比较以及基于胜负结果的Elo评分计算。最终结果通过与人类专家偏好的皮尔逊相关系数进行验证，确保评估的鲁棒性。

背景与挑战

背景概述

UCFE: User-Centric Financial Expertise Benchmark 是由香港中文大学（深圳）、南京大学以及Fin AI团队共同开发的一个创新框架，旨在评估大型语言模型（LLMs）处理复杂现实金融任务的能力。该数据集于2024年由Yuzhe Yang等人创建，其核心研究问题是如何在动态金融场景中评估LLMs的表现。UCFE基准通过结合人类专家评估和任务特定交互的混合方法，模拟了金融场景的复杂性。该数据集不仅揭示了LLMs在金融领域的潜力，还提供了一个强大的框架来评估其性能和用户满意度。

当前挑战

UCFE数据集面临的挑战主要集中在两个方面：一是解决金融领域问题的复杂性，包括专业背景、金融术语、法律细节和动态市场的高信噪比信息处理；二是数据集构建过程中遇到的挑战，如如何确保数据集能够反映真实世界的用户意图和交互，以及如何设计一个能够动态评估LLMs在实时、不断变化的金融条件下表现的框架。此外，金融监管的不断演变也增加了评估LLMs的复杂性，要求模型不断更新知识以保持合规性和实用性。

常用场景

经典使用场景

UCFE数据集的经典使用场景在于评估大型语言模型（LLMs）在处理复杂现实金融任务中的能力。通过结合人类专家评估和动态任务特定交互，UCFE基准测试模拟了金融场景的复杂性，特别是评估LLMs在多轮对话中的表现，如资产估值、公司评估和投资策略优化等任务。

实际应用

在实际应用中，UCFE数据集被广泛用于金融科技公司和金融机构，以评估和优化其AI助手的性能。例如，在投资咨询、风险评估和市场分析等场景中，UCFE基准测试帮助这些机构确保其AI系统能够准确理解和响应用户的金融需求，提升用户体验和决策支持的准确性。

衍生相关工作

UCFE数据集的推出催生了多项相关研究和工作，包括对LLMs在金融文本理解和生成任务中的深入分析，以及开发更高效的金融AI助手。此外，UCFE还启发了其他领域对用户中心评估框架的探索，推动了跨学科的研究合作和技术创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集