sec-contracts-corrective-extraction
收藏Hugging Face2026-04-10 更新2026-04-11 收录
下载链接:
https://huggingface.co/datasets/TheTokenFactory/sec-contracts-corrective-extraction
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含3,060个纠正性指令调优示例,旨在教导大型语言模型(LLMs)如何纠正从SEC Exhibit 10合同中提取结构化财务数据时的错误。这是对原始数据集(TheTokenFactory/sec-contracts-financial-extraction-instructions)的补充,专注于教导模型输出经过验证和校正的值,自我纠正符号错误和类型误分类,并在输入文本不包含实际财务值时输出空值(硬负例)。数据集包含三种类型的示例:正例(校正后的输出)、纠正例(模型可修复的错误)和负例(所有提取均未通过验证)。数据集来源于293家标普500公司的1,028份重要合同,通过10个验证门控流程进行验证。数据字段包括对话内容、元数据(如来源文件、公司名称、股票代码、示例类型等)。适用于金融NLP任务,如信息提取、指令调优和微调。
创建时间:
2026-04-09
原始信息汇总
SEC Financial Extraction - Corrective Training Data 数据集概述
数据集基本信息
- 数据集名称:S&P 500 SEC Financial Extractions - Corrective Dataset
- 发布者:TheTokenFactory
- 许可证:CC-BY-4.0
- 语言:英语
- 任务类别:文本生成、令牌分类
- 标签:金融、金融自然语言处理、SEC文件、SEC-EDGAR、结构化抽取、信息抽取、指令微调、微调、ShareGPT、Alpaca、ChatML、纠正训练、困难负样本、高管薪酬、股东委托书、DEF-14A、JSON抽取、标普500、自然语言处理
- 数据规模:1K<n<10K
- 示例总数:4,253条
数据集内容与目的
- 核心目的:提供纠正性指令微调示例,用于教导大语言模型纠正从SEC文件中抽取结构化财务数据时基础模型所犯的错误。
- 数据来源:涵盖标普500公司的Exhibit 10重大合同和DEF 14A股东委托书。
- 关联数据集:本数据集是TheTokenFactory/sec-contracts-financial-extraction-instructions的配套数据集,后者包含正向训练示例。
数据构成与分布
按文件类型与流水线划分
| 流水线 | 示例数量 | 文件类型 |
|---|---|---|
| Exhibit 10 | 3,060 | 重大合同(8-K、10-K、10-Q EX-10附件) |
| DEF 14A | 1,193 | 股东委托书(高管薪酬、公司治理) |
按示例类型划分
| 类型 | 数量 | 描述 |
|---|---|---|
| 正向(已纠正) | 1,968 | 输入与原始抽取相同,但输出是经过后处理验证器验证后的版本 |
| 纠正性(已挽救) | 95 | 后处理验证器修复了特定错误的抽取结果 - 输出显示纠正后的值 |
| 负向 | 2,190 | 所有抽取结果均无效的输入 - 输出为空JSON,用于教导模型识别“此处无内容” |
关键纠正信号
符号处理规范(代理声明特定)
模型的主要弱点在于处理薪酬表中美元金额和股票数量并排出现的情况:
| 错误类型 | 数量 | 示例 | 纠正 |
|---|---|---|---|
| 股票数量带美元符号 | 50 | “已获绩效股票”对应 $3,205 |
3,205 shares |
| 股票数量无单位 | 11 | “限制性股票单位”对应 92,028 |
92,028 shares |
| 缺失美元符号 | 30 | “年度基本工资”对应 9,525 |
$9,525 |
幻觉预防
| 错误类型 | 数量 | 教导内容 |
|---|---|---|
| 幻觉短语 | 23 | 当定义中出现“不包含”、“无特定”、“页码”等词时丢弃 |
| 列标题误作人名 | 194 | 当高管姓名为“指定高管”、“总计”等时丢弃 |
| 空治理值 | 182 | 当治理值为空、“N/A”、“未找到”时丢弃 |
丢弃门控分布(负向示例)
| 门控 | 数量 | 描述 |
|---|---|---|
| EMPTY_VALUE | 202 | 模型返回“NONE”标记 |
| COLUMN_HEADER_NAME | 194 | 表格标题被用作高管姓名 |
| EMPTY_GOV_VALUE | 182 | 空值/N/A治理值 |
| EMPTY_TYPE | 60 | 缺失项目类型 |
| BAD_COMP_TYPE | 55 | 非规范薪酬类型 |
| HALLUCINATION_PHRASE | 23 | 捏造的定义 |
数据格式
提供三种标准的微调格式,包含相同的示例:
| 格式 | 文件 | 最适合 |
|---|---|---|
| ShareGPT | data/sharegpt_corrective.jsonl |
Axolotl, Unsloth, LLaMA-Factory |
| Alpaca | data/alpaca_corrective.jsonl |
Stanford Alpaca格式工具 |
| OpenAI | data/openai_corrective.jsonl |
OpenAI微调API, HuggingFace TRL |
元数据字段
| 字段名 | 类型 | 描述 |
|---|---|---|
pipeline |
字符串 | exhibit10 或 proxy |
example_type |
字符串 | positive_corrected、corrective 或 negative |
negative_reason |
字符串 | 负向示例的主要验证门控 |
rescue_gates |
字符串 | 触发挽救的逗号分隔门控列表 |
has_dollar_on_shares |
布尔值 | 若此示例纠正了股票数量上的美元符号则为真 |
has_bare_share_count |
布尔值 | 若此示例纠正了缺失的“shares”标签则为真 |
drops_count |
整数 | 被验证丢弃的抽取数量 |
rescued_count |
整数 | 被验证挽救的抽取数量 |
数据集创建与标签说明
- 创建方法:通过比较原始LLM抽取结果(验证前)与经过后处理验证器验证后的输出生成。原始输出与验证后输出之间的差距定义了纠正信号。
- 标签性质:这些是由一个20亿参数模型通过自动验证生成的银标准标签。适用于微调,但不适用于金标准评估。
搜集汇总
数据集介绍

构建方式
在金融自然语言处理领域,高质量的训练数据对提升模型在结构化信息抽取任务上的性能至关重要。该数据集通过对比大型语言模型在验证前后的输出差异构建而成,具体流程涉及从标准普尔500公司的SEC文件中提取原始数据,包括材料合同(Exhibit 10)和代理声明(DEF 14A),随后利用自动化验证流程识别并修正模型在符号处理、幻觉生成等方面的错误,最终形成包含正例、修正例及负例的指令调优样本。
使用方法
为适应不同的微调框架,该数据集提供了ShareGPT、Alpaca和OpenAI三种标准格式,方便用户集成到Axolotl、LLaMA-Factory或HuggingFace TRL等工具中。使用时,可根据任务需求选择相应格式,利用数据集中的纠正示例进行指令调优或微调,以提升模型在金融信息抽取任务上的表现。需要注意的是,数据标签为银标准,适用于模型训练,但不建议作为金标准评估基准。
背景与挑战
背景概述
在金融自然语言处理领域,从美国证券交易委员会(SEC)文件中自动提取结构化信息是一项关键任务,旨在提升金融数据分析的自动化水平与准确性。sec-contracts-corrective-extraction数据集由TheTokenFactory机构创建,作为其原始提取数据集的补充,专注于提供纠正性训练样本。该数据集的核心研究问题在于解决大型语言模型在解析SEC文件,特别是材料合同(Exhibit 10)和委托声明书(DEF 14A)时产生的系统性错误,如符号误用和幻觉生成。通过包含纠正后的正例、被挽救的示例以及负例,该数据集为模型微调提供了关键信号,以增强其在金融信息提取任务中的鲁棒性和精确性,对推动金融文档的智能化处理具有显著影响力。
当前挑战
该数据集致力于解决金融信息提取领域的核心挑战,即从非结构化的SEC文件中准确识别并结构化关键财务数据,如高管薪酬和合同条款,同时避免模型产生幻觉或误读。在构建过程中,面临多重具体挑战:首先,模型在解析薪酬表格时频繁出现符号处理错误,例如将美元符号错误地附加于股份数量,或遗漏必要的单位标签;其次,表格列标题被误识别为实体名称,以及模型生成无实际内容的空值或无效表述,这些幻觉现象严重干扰了提取结果的可靠性。此外,数据集的标签依赖于自动化验证流程生成的银标准,而非人工标注的金标准,这在一定程度上限制了其作为评估基准的权威性。
常用场景
经典使用场景
在金融自然语言处理领域,sec-contracts-corrective-extraction数据集为大型语言模型提供了精准的指令微调范例,专门针对从美国证券交易委员会(SEC)文件中提取结构化财务信息时常见的错误进行纠正。该数据集涵盖了S&P 500公司的材料合同(Exhibit 10)和代理声明(DEF 14A),通过对比原始提取结果与经过验证的输出,生成包含正面纠正、救援性纠正及负面示例的多样化训练样本,有效指导模型识别并修正符号处理、幻觉生成等典型缺陷,从而提升模型在复杂金融文本解析中的鲁棒性与准确性。
解决学术问题
该数据集致力于解决金融信息提取中的关键学术挑战,包括模型在符号纪律方面的薄弱环节,如混淆美元金额与股份数量,以及幻觉生成问题,例如虚构定义或误用表头作为实体名称。通过提供明确的纠正信号,数据集帮助研究者探索如何减少大型语言模型在结构化提取任务中的错误传播,推动自动化验证机制与纠错训练方法的发展,为金融自然语言处理领域的模型评估与优化提供了重要的实验基准。
实际应用
在实际应用中,sec-contracts-corrective-extraction数据集可广泛应用于金融机构的自动化报告分析、合规审查与风险监控。例如,投资银行与资产管理公司可利用基于该数据集训练的模型,快速从海量SEC文件中提取高管薪酬、合同条款等关键信息,辅助投资决策与监管合规。此外,法律科技与审计行业也能借助此类工具提升文件审阅效率,降低人工解析成本,确保财务数据提取的标准化与可靠性。
数据集最近研究
最新研究方向
在金融自然语言处理领域,SEC文件的结构化信息提取正成为研究热点,尤其聚焦于提升大型语言模型在财务数据抽取中的精确性与鲁棒性。sec-contracts-corrective-extraction数据集通过纠错训练机制,针对模型在提取高管薪酬与合同条款时常见的符号混淆、幻觉生成及表头误识别等错误,提供了系统的校正样本。该数据集与前沿的指令微调技术结合,推动了金融文本理解模型在真实场景下的实用化进程,其引入的负样本与救援机制设计,为降低模型在复杂表格与专业术语中的错误率提供了新思路,对自动化财务分析与监管科技发展具有显著意义。
以上内容由遇见数据集搜集并总结生成



