adumitrescu18/Financial10kBenchmark

Name: adumitrescu18/Financial10kBenchmark
Creator: adumitrescu18
Published: 2024-01-09 16:03:46
License: 暂无描述

Hugging Face2024-01-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/adumitrescu18/Financial10kBenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于1993-2020年间美国上市公司提交给SEC的10-K年度报告生成的合成金融基准数据集，用于评估大型语言模型在金融领域的表现。数据集通过GPT-4自动生成复杂的问题，并利用多种模型进行回答，最后通过GPT-4评估回答的正确性。数据集包含8个字段，包括公司标识符、报告提交日期、文档ID、生成的问题、上下文、模型回答、评估的模型和模型评估结果。

提供机构：

adumitrescu18

原始信息汇总

数据集卡片 for 10-K Benchmark

数据集描述

这是一个基于大量10-K文件合成生成的金融基准数据集，用于大型语言模型。该基准随后在多个LLM上运行，这些模型根据上下文和生成的问题提供了候选答案以供评估。

原始的10-K数据集包含从1993年到2020年在美国SEC/EDGAR系统提交的公共美国公司的年度报告。GPT-4随后与这些提取的内容结合使用，自动生成涵盖计算、金融领域专业知识和法律/监管知识的复杂且具有挑战性的对抗性数据集。使用了多种模型，包括GPT-4-Turbo、GPT-3.5-Turbo、Llama-7b-chat-hf、Llama-2-70b-chat-hf、Zephyr-7b-Beta、Solar-10.7b-Instruct-v1.0、Mistral-7B-Instruct-v0.2、Mixtral-8x7B-Instruct-v0.1，来回答合成生成的问题，使用提供的“黄金上下文”和它们自己的知识。

最后，GPT-4用于评估每个模型生成的答案的正确性。GPT-4提供了（1）一个二进制的“是/否”标签（在数据集中共享），和（2）一个伴随的理由（由我们的团队手动审查，但未包含在数据集中）。

使用方法

加载数据集的代码如下：

python from datasets import load_dataset ds = load_dataset("adumitrescu18/Financial10kBenchmark")

按使用的模型过滤数据集结果（例如ChatGPT 3.5 Turbo）的代码如下：

python from datasets import load_dataset ds = load_dataset("adumitrescu18/Financial10kBenchmark") ds = ds["train"].filter(lambda x: x["Model Evaluated"] == "ChatGPT 3.5 Turbo")

数据字段

数据集包含8个不同的字段和属性：

cik	filingDate	docID	generatedQuestion	context	Model Response	Model Evaluated	Model Evaluation
10位数字标识符，SEC用于标识公司	10-K报告提交给SEC的日期	用于标识特定10-K提交的唯一ID。在所有配置和拆分中都是唯一的。可用于识别句子来自的文档。	GPT-4生成的问题	从数据集中提取的部分，为llm提供问题回答的上下文	llm在给定问题和上下文后的响应	用于问题回答的模型名称	GPT-4对模型响应的评估

5,000+

优质数据集

54 个

任务类型

进入经典数据集