adumitrescu18/Financial10kBenchmark
收藏数据集卡片 for 10-K Benchmark
数据集描述
这是一个基于大量10-K文件合成生成的金融基准数据集,用于大型语言模型。该基准随后在多个LLM上运行,这些模型根据上下文和生成的问题提供了候选答案以供评估。
原始的10-K数据集包含从1993年到2020年在美国SEC/EDGAR系统提交的公共美国公司的年度报告。GPT-4随后与这些提取的内容结合使用,自动生成涵盖计算、金融领域专业知识和法律/监管知识的复杂且具有挑战性的对抗性数据集。使用了多种模型,包括GPT-4-Turbo、GPT-3.5-Turbo、Llama-7b-chat-hf、Llama-2-70b-chat-hf、Zephyr-7b-Beta、Solar-10.7b-Instruct-v1.0、Mistral-7B-Instruct-v0.2、Mixtral-8x7B-Instruct-v0.1,来回答合成生成的问题,使用提供的“黄金上下文”和它们自己的知识。
最后,GPT-4用于评估每个模型生成的答案的正确性。GPT-4提供了(1)一个二进制的“是/否”标签(在数据集中共享),和(2)一个伴随的理由(由我们的团队手动审查,但未包含在数据集中)。
使用方法
加载数据集的代码如下:
python from datasets import load_dataset ds = load_dataset("adumitrescu18/Financial10kBenchmark")
按使用的模型过滤数据集结果(例如ChatGPT 3.5 Turbo)的代码如下:
python from datasets import load_dataset ds = load_dataset("adumitrescu18/Financial10kBenchmark") ds = ds["train"].filter(lambda x: x["Model Evaluated"] == "ChatGPT 3.5 Turbo")
数据字段
数据集包含8个不同的字段和属性:
| cik | filingDate | docID | generatedQuestion | context | Model Response | Model Evaluated | Model Evaluation |
|---|---|---|---|---|---|---|---|
| 10位数字标识符,SEC用于标识公司 | 10-K报告提交给SEC的日期 | 用于标识特定10-K提交的唯一ID。在所有配置和拆分中都是唯一的。可用于识别句子来自的文档。 | GPT-4生成的问题 | 从数据集中提取的部分,为llm提供问题回答的上下文 | llm在给定问题和上下文后的响应 | 用于问题回答的模型名称 | GPT-4对模型响应的评估 |



