kensho/bizbench
收藏Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/kensho/bizbench
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
dataset_info:
features:
- name: question
dtype: string
- name: answer
dtype: string
- name: task
dtype: string
- name: context
dtype: string
- name: context_type
dtype: string
- name: options
sequence: string
- name: program
dtype: string
splits:
- name: train
num_bytes: 52823429
num_examples: 14377
- name: test
num_bytes: 15720371
num_examples: 4673
download_size: 23760863
dataset_size: 68543800
---
<p align="left">
<img src="bizbench_pyramid.png">
</p>
# BizBench: A Quantitative Reasoning Benchmark for Business and Finance
Public dataset for [BizBench](https://arxiv.org/abs/2311.06602).
Answering questions within business and finance requires reasoning, precision, and a wide-breadth of technical knowledge.
Together, these requirements make this domain difficult for large language models (LLMs).
We introduce BizBench, a benchmark for evaluating models' ability to reason about realistic financial problems.
BizBench comprises **eight quantitative reasoning tasks**, focusing on question-answering (QA) over financial data via program synthesis.
We include three financially-themed code-generation tasks from newly collected and augmented QA data.
Additionally, we isolate the reasoning capabilities required for financial QA: reading comprehension of financial text and tables for extracting intermediate values, and understanding financial concepts and formulas needed to calculate complex solutions.
Collectively, these tasks evaluate a model's financial background knowledge, ability to parse financial documents, and capacity to solve problems with code.
We conducted an in-depth evaluation of open-source and commercial LLMs, comparing and contrasting the behavior of code-focused and language-focused models.
We demonstrate that the current bottleneck in performance is due to LLMs' limited business and financial understanding, highlighting the value of a challenging benchmark for quantitative reasoning within this domain.
We have also develop a heavily curated leaderboard with a held-out test set open to submission: [https://benchmarks.kensho.com/](https://benchmarks.kensho.com/). This set was manually curated by financial professionals and further cleaned by hand in order to ensure the highest quality. A sample pipeline for using this dataset can be found at [https://github.com/kensho-technologies/benchmarks-pipeline](https://github.com/kensho-technologies/benchmarks-pipeline).
## Dataset Statistics
| Dataset | Train/Few Shot Data | Test Data |
| --- | --- | --- |
| **Program Synthesis** | | |
| FinCode | 7 | 47 |
| CodeFinQA | 4668 | 795 |
| CodeTATQA | 2856 | 2000 |
| **Quantity Extraction** | | |
| ConvFinQA (E) | | 629 |
| TAT-QA (E) | | 120 |
| SEC-Num | 6846 | 2000 |
| **Domain Knowledge** | | |
| FinKnow | | 744 |
| ForumlaEval | | 50 |
license: Apache-2.0开源许可证
configs:
- config_name: 默认配置
data_files:
- split(拆分集): 训练集(train)
path: data/train-*
- split(拆分集): 测试集(test)
path: data/test-*
dataset_info(数据集信息):
features(特征):
- name: 问题(question)
dtype(数据类型): 字符串(string)
- name: 答案(answer)
dtype(数据类型): 字符串(string)
- name: 任务类型(task)
dtype(数据类型): 字符串(string)
- name: 上下文(context)
dtype(数据类型): 字符串(string)
- name: 上下文类型(context_type)
dtype(数据类型): 字符串(string)
- name: 选项(options)
sequence(序列类型): 字符串(string)
- name: 程序(program)
dtype(数据类型): 字符串(string)
splits(拆分集):
- name: 训练集(train)
num_bytes: 52823429
num_examples: 14377
- name: 测试集(test)
num_bytes: 15720371
num_examples: 4673
download_size: 23760863
dataset_size: 68543800
<p align="left">
<img src="bizbench_pyramid.png">
</p>
# BizBench:面向商务与金融领域的定量推理基准数据集
本数据集为[BizBench](https://arxiv.org/abs/2311.06602)的公开数据集。
商务与金融领域的问题解答需要推理能力、严谨性以及广博的专业技术知识。这些综合要求使得该领域成为大语言模型(Large Language Model, LLM)的难点场景。为此我们推出BizBench基准数据集,用于评估模型针对真实金融问题的推理能力。
BizBench包含**8项定量推理任务**,核心为通过程序合成(program synthesis)完成金融数据相关的问答(Question-Answering, QA)任务。我们从新采集并增强的问答数据中,新增了3项金融主题的代码生成任务。
此外,我们将金融问答所需的推理能力进行拆解:包括对金融文本与表格的阅读理解以提取中间数值,以及理解用于求解复杂问题的金融概念与公式。综合来看,这些任务可评估模型的金融背景知识储备、金融文档解析能力,以及通过代码求解问题的能力。
我们针对开源与商用大语言模型开展了深度评估,对比分析了专注代码与专注自然语言的模型的表现差异。我们的研究表明,当前模型性能的瓶颈源于大语言模型对商务与金融领域的理解能力不足,这也凸显了该领域定量推理基准数据集的重要价值。
我们还搭建了经过严格筛选的排行榜,其预留测试集对外开放提交:[https://benchmarks.kensho.com/](https://benchmarks.kensho.com/)。该测试集由金融专业人士手动筛选,并经人工进一步清洗,以确保最高的数据质量。本数据集的使用示例流程可参考:[https://github.com/kensho-technologies/benchmarks-pipeline](https://github.com/kensho-technologies/benchmarks-pipeline)。
## 数据集统计信息
| 数据集 | 训练/少样本数据 | 测试数据 |
| --- | --- | --- |
| **程序合成(program synthesis)** | | |
| FinCode | 7 | 47 |
| CodeFinQA | 4668 | 795 |
| CodeTATQA | 2856 | 2000 |
| **数值提取(quantity extraction)** | | |
| ConvFinQA (E) | | 629 |
| TAT-QA (E) | | 120 |
| SEC-Num | 6846 | 2000 |
| **领域知识(domain knowledge)** | | |
| FinKnow | | 744 |
| ForumlaEval | | 50 |
提供机构:
kensho
原始信息汇总
BizBench 数据集概述
数据集信息
许可证
- Apache 2.0
配置
- 默认配置
- 训练数据路径:
data/train-* - 测试数据路径:
data/test-*
- 训练数据路径:
特征
question: 字符串answer: 字符串task: 字符串context: 字符串context_type: 字符串options: 字符串序列program: 字符串
数据分割
- 训练集
- 字节数: 52823429
- 样本数: 14377
- 测试集
- 字节数: 15720371
- 样本数: 4673
数据大小
- 下载大小: 23760863 字节
- 数据集大小: 68543800 字节
数据集统计
| 数据集 | 训练/小样本数据 | 测试数据 |
|---|---|---|
| 程序合成 | ||
| FinCode | 7 | 47 |
| CodeFinQA | 4668 | 795 |
| CodeTATQA | 2856 | 2000 |
| 数量提取 | ||
| ConvFinQA (E) | 629 | |
| TAT-QA (E) | 120 | |
| SEC-Num | 6846 | 2000 |
| 领域知识 | ||
| FinKnow | 744 | |
| ForumlaEval | 50 |
搜集汇总
数据集介绍

构建方式
BizBench数据集的构建旨在评估模型在商业和金融领域的定量推理能力。该数据集包含了八个定量推理任务,专注于通过程序合成进行金融数据的问题回答。数据集的构建过程包括从新收集和增强的问答数据中提取三个与金融相关的代码生成任务。此外,数据集还特别关注了金融问答所需的推理能力,包括对金融文本和表格的阅读理解,以及对金融概念和公式的理解,以计算复杂的解决方案。
特点
BizBench数据集的显著特点在于其专注于金融领域的定量推理任务,涵盖了从代码生成到数量提取和领域知识评估的多个方面。数据集中的任务设计旨在测试模型的金融背景知识、文档解析能力以及使用代码解决问题的能力。此外,数据集的测试集由金融专业人士手工精选和清理,确保了数据的高质量和专业性。
使用方法
BizBench数据集主要用于评估和提升模型在商业和金融领域的定量推理能力。用户可以通过访问提供的GitHub链接获取数据集的使用示例管道,该管道展示了如何有效地利用数据集进行模型训练和测试。数据集的配置文件中详细列出了训练和测试数据的路径,用户可以根据需要选择合适的配置进行数据加载和处理。
背景与挑战
背景概述
在商业与金融领域,问题的解答不仅需要精确的推理能力,还需广泛的技术知识,这使得该领域对大型语言模型(LLMs)构成了挑战。为此,Kensho公司推出了BizBench数据集,旨在评估模型在处理现实金融问题时的推理能力。该数据集包含八个定量推理任务,专注于通过程序合成进行金融数据的问题解答。BizBench不仅涵盖了三个新的金融主题代码生成任务,还特别强调了金融问答所需的推理能力,包括对金融文本和表格的阅读理解,以及对金融概念和公式的理解。该数据集的推出,标志着对LLMs在商业和金融领域应用能力的一次深入评估,揭示了当前模型在这一领域的表现瓶颈,强调了建立挑战性基准的重要性。
当前挑战
BizBench数据集面临的挑战主要集中在两个方面:首先,构建过程中需要确保数据的高质量和专业性,这要求数据集必须经过金融专业人士的手工筛选和清理,以保证其准确性和实用性。其次,该数据集旨在评估模型在处理复杂金融问题时的能力,这包括对金融文本的理解、对金融概念的掌握以及对复杂公式的应用,这些都对模型的推理能力和知识广度提出了极高的要求。此外,如何有效评估和提升模型在金融领域的背景知识,以及如何通过程序合成解决实际问题,也是该数据集面临的重要挑战。
常用场景
经典使用场景
在金融与商业领域,BizBench数据集的经典应用场景主要体现在对大型语言模型(LLMs)在处理复杂财务问题上的能力评估。该数据集通过包含八个定量推理任务,专注于通过程序合成进行财务数据的问题回答。这些任务不仅要求模型具备对财务文本和表格的阅读理解能力,还需理解财务概念和公式,以计算复杂解决方案。这种多维度的评估方式,使得BizBench成为衡量模型在金融领域推理能力的重要工具。
实际应用
在实际应用中,BizBench数据集被广泛用于开发和测试金融领域的智能系统。例如,金融机构可以利用该数据集评估和优化其自动化财务分析工具,确保这些工具能够准确处理复杂的财务数据和问题。此外,该数据集还可用于培训和验证金融顾问的辅助系统,提升其在提供专业财务建议时的准确性和效率。
衍生相关工作
BizBench数据集的推出激发了一系列相关研究和工作。例如,研究者基于该数据集开发了新的模型评估方法,以更精确地衡量模型在金融领域的性能。同时,也有研究专注于提升模型在处理财务数据时的效率和准确性,通过引入新的算法和模型架构来解决现有模型的瓶颈问题。这些衍生工作不仅丰富了金融领域的研究内容,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



