FINANCEBENCH

Name: FINANCEBENCH
Creator: 斯坦福大学
Published: 2023-11-21 01:28:02
License: 暂无描述

arXiv2023-11-21 更新2024-06-21 收录

下载链接：

https://github.com/patronus-ai/financebench

下载链接

链接失效反馈

官方服务：

资源简介：

FINANCEBENCH是由斯坦福大学等机构创建的金融问答测试套件，包含10,231个关于公开交易公司的问题，每个问题都有相应的答案和证据字符串。数据集旨在评估大型语言模型在开放式金融问答任务中的性能。数据集覆盖了多样化的场景，旨在作为最低性能标准。数据集的创建过程涉及多学科专家团队，包括AI、评估和金融服务领域的专家。FINANCEBENCH的应用领域主要集中在金融分析和投资决策支持，旨在解决金融领域特定任务的模型评估问题。

FINANCEBENCH is a financial question answering test suite developed by Stanford University and other institutions. It contains 10,231 questions about publicly traded companies, with each question paired with a corresponding answer and evidence string. This dataset is designed to evaluate the performance of large language models (LLMs) on open-ended financial question answering tasks. It covers diverse scenarios and is intended to serve as a minimum performance benchmark. The creation of FINANCEBENCH involved a multidisciplinary team of experts spanning the fields of artificial intelligence, evaluation methodology, and financial services. The primary application areas of FINANCEBENCH focus on financial analysis and investment decision support, with the goal of addressing model evaluation challenges for specific tasks in the financial domain.

提供机构：

斯坦福大学

创建时间：

2023-11-21

搜集汇总

数据集介绍

构建方式

FINANCEBENCH数据集由Patronus AI、Contextual AI和斯坦福大学的多学科专家团队创建，旨在评估大型语言模型（LLMs）在金融问答（QA）任务上的性能。该数据集包含10,231个关于公开交易公司的问题，以及相应的答案和证据字符串。数据集的构建过程涉及三个主要步骤：首先，专家团队创建了25个与财务分析相关的通用问题，例如公司是否支付了分红或运营利润率是否一致。其次，专家团队根据公司、报告和行业情况创建了1,323个新颖的生成问题。最后，专家团队从10K文件的三个主要财务报表中提取了18个具体指标，并基于这些指标构建了7,983个指标生成问题。每个问题条目都包括问题本身、答案、证据字符串和相关文档的页码。

使用方法

使用FINANCEBENCH数据集评估LLMs在金融问答任务上的性能，需要进行以下步骤：1）选择模型：选择要评估的LLM模型，例如GPT-4-Turbo、Llama2或Claude2。2）选择设置：选择要测试的设置，例如封闭书、神谕、单个向量存储、共享向量存储或长上下文。3）生成提示：根据所选设置生成提示，例如封闭书设置下的提示只包含问题本身，而共享向量存储设置下的提示包含问题和相关文档。4）收集答案：收集模型对每个问题的答案。5）人工评估：由专家团队对模型的答案进行人工评估，并根据正确答案、错误答案和拒绝回答进行分类。6）分析结果：分析模型在不同设置和问题类型上的表现，并识别模型的弱点和局限性。

背景与挑战

背景概述

FINANCEBENCH 是一个专门为评估大型语言模型（LLM）在开放书籍财务问答（QA）任务上的性能而创建的测试套件。该数据集由 Patronus AI 公司的多学科专家团队于 2023 年 11 月构建，旨在填补金融领域 LLM 评估的空白。FINANCEBENCH 包含 10,231 个关于公开交易公司的问答，涵盖了广泛的财务场景，旨在作为评估 LLM 性能的基准。该数据集的创建旨在解决金融领域 LLM 应用中的关键挑战，例如缺乏特定领域知识、缺乏最新财务信息、数值推理能力不足、难以处理结构化数据以及难以处理大量信息。FINANCEBENCH 的创建为金融领域 LLM 的评估提供了重要的参考，并为金融分析自动化和智能化提供了新的可能性。

当前挑战

FINANCEBENCH 数据集和相关研究揭示了当前 LLM 在金融问答任务中存在的挑战。首先，LLM 需要具备特定领域的知识和术语，以及对公司、行业的了解。其次，LLM 需要获取最新的财务信息，并理解相关的金融新闻。然而，许多模型的数据更新不及时，无法满足这一需求。第三，LLM 在数值推理方面存在局限性，经常在需要进行计算时出错。第四，LLM 需要同时处理非结构化输入（如自由文本形式的定性问题）和结构化输入（如表格数据）。第五，LLM 需要处理来自多个文档的多条信息，并解析长篇文本内容。这些挑战使得 LLM 在金融问答任务中的应用存在局限性，需要进一步研究和改进。

常用场景

经典使用场景

FINANCEBENCH数据集被设计用于评估大型语言模型（LLM）在开放书金融问答（QA）任务上的性能。它包含10,231个关于公开交易公司的问题，以及相应的答案和证据字符串。这些问题具有生态有效性，涵盖了多种场景，旨在作为最低性能标准。该数据集已被用于测试16种最先进的模型配置，包括GPT-4-Turbo、Llama2和Claude2，并使用向量存储和长上下文提示。研究结果表明，现有的LLM在金融QA方面存在明显局限性，尤其是在缺乏领域知识和更新信息的情况下。因此，FINANCEBENCH数据集为评估LLM在金融领域的性能提供了一个重要的基准。

解决学术问题

FINANCEBENCH数据集解决了金融领域LLM评估的难题。它填补了现有评估数据集在金融任务上的空白，并揭示了现有LLM在金融QA方面的局限性，如缺乏领域知识、更新信息、数值推理能力、处理结构化输入和长文本的能力等。该数据集为LLM在金融领域的应用提供了重要的参考，并促进了相关研究的发展。

实际应用

FINANCEBENCH数据集在实际应用中可用于评估和改进LLM在金融领域的性能。金融机构可以使用该数据集来测试和选择合适的LLM，并将其应用于自动化和辅助金融分析任务，如信息检索、摘要和分析、推理等。这有助于提高金融分析的效率和质量，并降低成本。

数据集最近研究