sec-contracts-financial-extraction-instructions

Hugging Face2026-04-06 更新2026-04-07 收录

下载链接：

https://huggingface.co/datasets/TheTokenFactory/sec-contracts-financial-extraction-instructions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'S&P 500 Exhibit 10 Financial Extractions'，包含2,904个指令调优示例，用于训练大型语言模型从SEC Exhibit 10材料合同中提取结构化金融数据。数据集涵盖三个提取任务：元数据提取（1,028例）、金融条款提取（1,443例）和契约条款提取（433例）。数据来源于293家标普500公司在6个月内提交的1,028份材料合同，通过Gemma 4 2B模型提取并经过严格的质量过滤。数据集提供三种标准微调格式（ShareGPT、Alpaca和OpenAI格式），适用于金融文档理解、信息提取研究等场景。数据集为银标准标签（模型生成，非人工标注），主要限制包括时间范围有限（6个月）、仅涵盖标普500公司、英语文档等。数据集采用CC-BY-4.0许可发布。

创建时间：

2026-04-06

原始信息汇总

SEC Contract Financial Extraction Instructions 数据集概述

数据集基本信息

数据集名称：S&P 500 Exhibit 10 Financial Extractions
发布者：TheTokenFactory
发布日期：2026年
许可证：CC-BY-4.0
语言：英语
任务类别：文本生成、令牌分类
标签：金融、金融自然语言处理、SEC文件、SEC EDGAR、结构化提取、信息提取、命名实体识别、法律、合同、债务契约、高管薪酬、信贷协议、指令微调、微调、ShareGPT、Alpaca、ChatML、JSON提取、标普500、自然语言处理
数据规模：1K<n<10K
示例数量：2,904个指令微调示例

数据集来源与内容

来源文件：美国证券交易委员会EDGAR系统中的EX-10（重要合同）附件，来自8-K、10-K和10-Q文件。
公司范围：293家独特的标普500指数成分股公司。
文档数量：1,028份在6个月窗口期内提交的重要合同。
提取模型：使用温度参数为0.1的Gemma 4 2B（Q4_K_M量化）模型生成提取结果。
核心内容：每个示例将标普500公司文件中的原始合同文本与高置信度的结构化JSON提取结果配对。

支持的任务类型

1. 元数据提取

示例数量：1,028个
任务描述：给定合同前言（约1,000词），提取生效日期和两个主要签约方作为结构化JSON。
输出模式： json {"effective_date": "YYYY-MM-DD", "primary_party_1": "Name", "primary_party_2": "Name"}

2. 财务条款提取

示例数量：1,443个
任务描述：给定包含财务语言的合同摘录，提取最多5个货币值或百分比及其定义和分类。
13种条款类型：salary, bonus, severance, retirement_benefit, equity_grant, credit_facility, loan_amount, interest_rate, fee, threshold, purchase_price, compensation, other
输出模式： json { "financial_values": [ { "value": "$1,500,000", "definition": "Annual base salary for CEO", "term_type": "salary", "effective_period": "2025-2026", "maturity_date": null } ] }

3. 契约条款提取

示例数量：433个
任务描述：给定包含债务契约语言的合同摘录，提取财务维持测试和合规阈值。
7种契约类型：leverage_ratio, interest_coverage, debt_service, net_worth, liquidity, fixed_charge, other
输出模式： json { "covenants": [ { "covenant_type": "leverage_ratio", "threshold_value": "3.50x", "definition": "Maximum Consolidated Leverage Ratio", "consequence": "Event of default" } ] }

数据集格式

提供了三种标准的微调格式，包含相同的训练示例，仅结构不同。

ShareGPT格式 (`sharegpt_financial_extraction.jsonl`)

适用场景：Axolotl, Unsloth, LLaMA-Factory
结构：包含conversations和metadata字段。

Alpaca格式 (`alpaca_financial_extraction.jsonl`)

适用场景：简单的微调流程、Stanford Alpaca格式工具
结构：包含instruction、input、output和metadata字段。

OpenAI格式 (`openai_financial_extraction.jsonl`)

适用场景：OpenAI微调API、HuggingFace TRL
结构：包含messages字段。

数据字段

元数据字段（所有格式）

字段	类型	描述
`source_file`	字符串	SEC文件名称
`chunk_type`	字符串	`metadata`、`financial`或`covenant`
`task_type`	字符串	`metadata_extraction`、`financial_extraction`或`covenant_extraction`
`company`	字符串	标准化的标普500公司名称
`ticker`	字符串	股票代码
`confidence_min`	浮点数	最低提取置信度（0.0-1.0），仅财务任务
`has_noncanonical_term_type`	布尔值	如果存在任何条款类型超出13种标准类型则存在
`has_noncanonical_covenant_type`	布尔值	如果存在任何契约类型超出7种标准类型则存在

质量指标

置信度分布（财务提取）

范围	数量	百分比
0.9 - 1.0	851	59.0%
0.8 - 0.9	228	15.8%
0.7 - 0.8	2	0.1%

74.8%的财务示例最低置信度≥0.8

应用的质量过滤器

排除示例的条件：

所有财务值均为"NONE"（空提取标记）— 排除27个
所有财务值均为裸"$"或"%"符号 — 排除58个
所有置信度分数低于0.7 — 排除72个
源文本少于50个字符 — 排除5个
未找到提取结果 — 排除8个
总计：排除170个示例，保留2,904个（通过率94.5%）

财务条款类型分布

所有条款类型均已标准化为13种标准类别（无非标准类型）：

条款类型	数量	条款类型	数量
interest_rate	879	fee	384
equity_grant	806	loan_amount	339
bonus	608	compensation	237
threshold	575	retirement_benefit	119
salary	538	other	113
credit_facility	530	purchase_price	57
		severance	38

契约类型分布

所有契约类型均已标准化为7种标准类别：

契约类型	数量
debt_service	400
leverage_ratio	354
liquidity	327
interest_coverage	314
net_worth	255
fixed_charge	92
other	69

令牌统计

任务	平均输入令牌数	平均输出令牌数
元数据提取	1,294	39
财务提取	888	184
契约提取	1,472	262

令牌计数使用cl100k_base编码（tiktoken）。

数据集创建流程

源数据

原始合同文本通过EDGAR提交API从SEC EDGAR下载。仅包含标普500公司8-K、10-K和10-Q文件中的EX-10（重要合同）附件。

提取流程

一个6阶段的Python流程处理原始HTML/TXT文件：

收集器 — 从SEC EDGAR下载EX-10附件
切分器 — 提取目标文本块（前言、财务段落、HTML表格、契约条款）
提取器 — 将文本块路由到特定任务的LLM提示（Gemma 4 2B，温度0.1）
缩减器 — 通过14个质量门验证提取结果，标准化值，重新分类错误类型的条款
标准化器 — 通过CIK查找将实体名称解析为标普500标准名称，并用GICS行业数据丰富
训练数据生成器 — 将原始输入与验证后的输出结合，将类型标准化为标准集，应用质量过滤器

数据清洗（v2，2026年4月）

此版本包含显著的后提取清洗：

类型标准化：所有条款类型映射到13种标准类别，所有契约类型映射到7种标准类别（无非标准类型）
幻觉移除：过滤掉已知的伪造值（1.6亿美元幻影、裸$/%符号）
表格伪影修复：修复了HTML表格单元格连接错误（防止合并值如$66,666,66753,333,333.34）
基于定义的重分类：自动纠正定义与类型矛盾的条款
格式错误利差恢复：将利率利差如$1.125%恢复为1.125%而不是丢弃

标签重要说明

提取结果由20亿参数模型生成，非人工标注。虽然质量门过滤了明显错误，但这些是银标准标签 — 适用于微调，但不适合用作黄金标准评估基准。

预期用途

微调小型LLMs（10亿-70亿参数）用于结构化财务文档提取
领域适应需要理解SEC文件的模型
指令微调用于从财务文本生成JSON结构化输出
研究法律/财务文档的信息提取

局限性

时间范围：6个月的文件窗口（非历史回溯测试）
范围：仅标普500指数（美国大盘股）
语言：仅英语
标签质量：银标准（模型生成，非人工标注）
模型偏差：Gemma 4 2B可能具有系统性的提取模式，会转移到微调模型中
覆盖范围：500家标普500公司中有293家在窗口期内有EX-10文件

引用

bibtex @dataset{thetokenfactory2026sp500exhibit10, title={S&P 500 Exhibit 10 Financial Extractions}, author={TheTokenFactory}, year={2026}, publisher={HuggingFace}, url={https://huggingface.co/datasets/TheTokenFactory/sec-contracts-financial-extraction-instructions} }

搜集汇总

数据集介绍

构建方式

在金融自然语言处理领域，高质量标注数据的稀缺性长期制约着模型对复杂文档的理解能力。本数据集通过一个精心设计的六阶段自动化流程构建而成，其源数据来自美国证券交易委员会EDGAR系统中标准普尔500指数成分公司提交的EX-10重大合同附件。流程首先利用专门的采集器下载原始HTML/TXT文件，随后通过文本分割器提取合同序言、财务段落及条款等特定文本块。核心环节采用量化后的Gemma 4 2B模型在低温设定下进行确定性信息抽取，生成结构化JSON输出。后续的规约器和标准化器则执行了包括14项质量门控、数值归一化、实体名称规范以及类型映射至13种财务术语和7种契约类型的严谨清洗工作，最终生成适用于指令微调的配对数据。

特点

该数据集的核心特征体现在其针对金融合同结构化抽取任务的专业性与系统性。它涵盖了元数据抽取、财务术语抽取和债务契约抽取三大关键任务，共计提供2,904条高质量的指令微调样本。数据样本均源自真实的市场监管文件，确保了领域相关性与实践价值。其独特之处在于提供了ShareGPT、Alpaca和OpenAI三种主流微调格式，极大提升了模型适配的灵活性。此外，数据集经过严格的后处理清洗，包括消除模型幻觉、修复表格拼接错误、基于定义的类型重分类等，使得超过74.8%的财务样本具有不低于0.8的置信度，所有术语与契约类型均已归一化至预设的规范类别，保证了数据的一致性与可靠性。

使用方法

本数据集专为微调中小型语言模型以理解并抽取金融法律文档中的结构化信息而设计。使用者可根据其技术栈选择相应的数据格式：ShareGPT格式适用于Axolotl、Unsloth等框架；Alpaca格式便于集成至遵循斯坦福Alpaca格式的简易流水线；OpenAI格式则兼容OpenAI官方微调API及HuggingFace TRL库。每个样本均包含系统指令、原始合同文本片段及对应的标准JSON输出，用户可直接将其用于监督式微调，以训练模型完成从合同文本中提取生效日期、缔约方、具体金融数值及其定义、债务契约阈值等复杂任务。鉴于标签为模型生成的银标准，建议将其主要用于模型能力提升与领域适应，而非作为金标准评估基准。

背景与挑战

背景概述

在金融自然语言处理领域，从复杂法律文件中自动提取结构化信息是一项关键任务。SEC合同财务提取指令数据集于2026年由TheTokenFactory发布，专注于从美国证券交易委员会（SEC）的EX-10重要合同附件中，系统性地提取财务与法律信息。该数据集基于293家标准普尔500指数成分公司在六个月内提交的1028份合同文件，通过Gemma 4 2B模型生成高质量的结构化标注，涵盖了元数据提取、财务条款提取和契约条款提取三大核心任务。其创建旨在填补公开数据集中缺乏针对SEC文件结构化财务提取的指令调优示例的空白，为小型语言模型在特定金融领域的微调与应用提供了重要资源。

当前挑战

该数据集致力于解决从非结构化SEC法律文件中精准提取结构化财务信息的核心挑战，这要求模型具备理解复杂金融术语、法律条款及其上下文关联的深度语义能力。在构建过程中，面临多重技术挑战：原始合同文本格式多样且包含大量HTML标签与表格，需设计精细的预处理流程；使用较小规模模型生成标注虽经严格质量过滤，但仍属银标准，可能存在系统性偏差；财务术语与契约类型存在非规范表达，需通过后处理进行归一化映射至13种财务条款类型和7种契约类型；此外，数据覆盖范围局限于特定时间窗口内的大型美国公司，可能影响模型的泛化能力。

常用场景

经典使用场景

在金融自然语言处理领域，该数据集为训练语言模型从SEC文件（如8-K、10-K和10-Q中的EX-10材料合同）中提取结构化财务信息提供了核心资源。其经典使用场景涉及利用指令微调范例，指导模型执行元数据提取、财务条款提取和债务契约提取三项任务。通过提供原始合同文本与高置信度JSON提取结果的配对，该数据集使得研究人员能够构建专门针对金融文档理解的领域自适应模型，尤其适用于处理S&P 500公司公开披露的复杂法律合同文本。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在金融自然语言处理的模型架构与微调方法创新上。例如，研究人员基于其ShareGPT、Alpaca和OpenAI格式的范例，开发了针对小参数模型（1B-7B）的领域自适应微调流程。相关工作还包括利用该数据集的规范化分类体系，构建更鲁棒的财务命名实体识别与关系联合抽取模型，以及探索少样本学习在复杂金融文本提取中的应用。这些工作共同推动了结构化信息提取技术在金融科技领域的实际落地。

数据集最近研究