execcomp-ai-sample

Hugging Face2026-01-04 更新2026-01-05 收录

下载链接：

https://huggingface.co/datasets/pierjoe/execcomp-ai-sample

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从SEC文件中提取的**摘要补偿表**，包括： - 原始表格图像 - HTML表格结构 - 带有执行补偿详细信息的结构化JSON - 来自微调二元分类器的**SCT概率分数**（用于过滤误报） > 💡 **提示**：通过`sct_probability >= 0.7`过滤以获得高置信度的SCT记录。

创建时间：

2025-12-31

原始信息汇总

数据集概述

基本信息

数据集名称: SEC Executive Compensation Dataset
数据集地址: https://huggingface.co/datasets/pierjoe/execcomp-ai-sample
许可证: MIT License
主要语言: 英语 (en)
任务类别: 表格到文本 (table-to-text)
数据规模: 10K<n<100K
标签: 金融 (finance)、美国证券交易委员会 (sec)、高管薪酬 (executive-compensation)、DEF 14A、委托声明书 (proxy-statements)

数据集状态

当前状态: 正在积极开发和扩展中。
当前版本记录数: 约 12,000 条记录。
目标规模: 超过 100,000 份 SEC 文件 (2005-2022)。
使用警告: 数据可能包含错误或不一致之处；模式和字段可能会更改；记录将定期添加；统计信息将随处理过程更新；仅限研究用途，风险自负。

数据内容与来源

数据描述: 包含从美国证券交易委员会 (SEC) DEF 14A 委托声明书中提取的结构化高管薪酬数据。
具体内容: 摘要薪酬表 (Summary Compensation Tables)，包含原始表格图像、HTML 表格结构、包含高管薪酬详细信息的结构化 JSON 以及来自微调二元分类器的 SCT 概率分数。
数据来源: 从 SEC EDGAR (https://www.sec.gov/edgar) 提取的 DEF 14A 文件。

数据集特征 (Features)

字段名	数据类型	描述
`cik`	string	SEC 中央索引密钥
`company`	string	公司名称
`year`	int64	申报年份
`filing_date`	string	SEC 申报日期
`sic`	string	标准行业分类代码
`state_of_inc`	string	注册所在州
`filing_html_index`	string	SEC 申报文件链接
`accession_number`	string	SEC 登记号
`table_image`	image	提取的表格图像
`table_body`	string	HTML 表格内容
`executives`	string	高管薪酬的 JSON 数组
`sct_probability`	float64	该表为真实 SCT 的概率 (0-1，来自微调分类器)

高管数据模式 (Executive Schema)

json { "name": "John Smith", "title": "CEO", "fiscal_year": 2023, "salary": 500000, "bonus": 100000, "stock_awards": 2000000, "option_awards": 500000, "non_equity_incentive": 300000, "change_in_pension": 50000, "other_compensation": 25000, "total": 3475000 }

数据划分 (Splits)

划分名称	记录数量	描述
`train`	12,022	所有记录的合并
`year_2005`	468	按申报年份筛选的记录
`year_2006`	492	按申报年份筛选的记录
`year_2007`	512	按申报年份筛选的记录
`year_2008`	486	按申报年份筛选的记录
`year_2009`	472	按申报年份筛选的记录
`year_2010`	429	按申报年份筛选的记录
`year_2011`	434	按申报年份筛选的记录
`year_2012`	391	按申报年份筛选的记录
`year_2013`	384	按申报年份筛选的记录
`year_2014`	430	按申报年份筛选的记录
`year_2015`	434	按申报年份筛选的记录
`year_2016`	357	按申报年份筛选的记录
`year_2017`	369	按申报年份筛选的记录
`year_2018`	374	按申报年份筛选的记录
`year_2019`	344	按申报年份筛选的记录
`year_2020`	4,867	按申报年份筛选的记录
`year_2021`	393	按申报年份筛选的记录
`year_2022`	386	按申报年份筛选的记录

使用建议

SCT 概率过滤: 建议使用 sct_probability >= 0.7 进行过滤，以获得高置信度的 SCT 记录，减少误报（如董事薪酬表）和重复项的影响。

方法论

数据使用以下工具从 SEC EDGAR DEF 14A 文件中提取：

表格提取: 使用 MinerU 进行基于 VLM 的 PDF 表格提取。
分类与提取: 使用 Qwen3-VL-32B 进行分类和数据提取。

处理流程

从 SEC EDGAR 下载 DEF 14A PDF 文件。
使用 MinerU 提取表格。
对表格进行分类以识别摘要薪酬表。
合并跨页分割的表格。
使用 VLM 提取结构化薪酬数据。

引用

如果研究中使用此数据集，请引用： bibtex @dataset{execcomp_ai_2026, author = {Di Pasquale, Pier Paolo}, title = {SEC Executive Compensation Dataset}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/pierjoe/execcomp-ai-sample}, note = {AI-extracted executive compensation data from SEC DEF 14A filings (2005-2022)} }

或文本格式：

Di Pasquale, P. P. (2026). SEC Executive Compensation Dataset. Hugging Face. https://huggingface.co/datasets/pierjoe/execcomp-ai-sample

相关链接

GitHub 项目: https://github.com/pierpierpy/Execcomp-AI
SEC EDGAR: https://www.sec.gov/edgar

搜集汇总

数据集介绍

构建方式

在金融信息披露领域，美国证券交易委员会（SEC）的DEF 14A委托声明书是获取高管薪酬数据的关键来源。execcomp-ai-sample数据集通过一套自动化流程构建而成，首先从SEC EDGAR系统下载2005年至2022年间的DEF 14A PDF文件，随后利用基于视觉语言模型（VLM）的MinerU工具进行表格提取。通过Qwen3-VL-32B模型对提取的表格进行分类，以识别其中的高管薪酬汇总表（SCT），并对跨页表格进行合并处理，最终借助VLM技术将表格内容转化为结构化的JSON格式薪酬数据。

特点

该数据集在金融文本结构化领域展现出显著特色，其核心在于融合了多模态数据表示。每条记录不仅包含原始表格图像和HTML结构，还提供了经解析的高管薪酬JSON数组，涵盖了薪资、奖金、股权奖励等详细字段。尤为独特的是，数据集引入了经过微调的二元分类器生成的sct_probability分数，该概率值有助于研究者有效筛选出高置信度的真实薪酬汇总表，从而减少误报和重复条目。数据按年份进行分割，便于进行纵向趋势分析。

使用方法

为支持金融与计算社会科学研究，该数据集可通过Hugging Face的datasets库便捷加载。研究者可选择加载完整的训练集，或按特定年份分割进行针对性分析。为提升数据质量，建议在加载后应用过滤器，仅保留sct_probability值不低于0.7的高置信度记录。数据可轻松转换为Pandas DataFrame，便于进行统计分析，例如计算年度平均薪酬或识别薪酬最高的高管。表格图像可作为PIL对象直接查看，为多模态分析提供了便利。

背景与挑战

背景概述

在金融信息学与计算社会科学交叉领域，高管薪酬数据的结构化提取与分析是公司治理与金融监管研究的核心课题。SEC Executive Compensation数据集由研究人员Pier Paolo Di Pasquale于2026年构建并发布，旨在从美国证券交易委员会（SEC）的DEF 14A委托声明书中，自动化提取2005年至2022年间的高管薪酬汇总表。该数据集依托先进视觉语言模型与信息抽取技术，将非结构化的PDF文档转化为包含图像、HTML及结构化JSON的多模态数据，为薪酬公平性、激励政策与企业绩效关联性等研究提供了大规模、细粒度的实证基础，显著推动了金融文本智能处理与可计算经济学的发展。

当前挑战

该数据集致力于解决金融文档中复杂表格信息的精准识别与结构化转换问题，其核心挑战在于区分真正的薪酬汇总表与相似结构的其他表格，如董事薪酬表，并处理跨页表格的合并与数据一致性。构建过程中，面临原始PDF格式多样、表格布局异构以及视觉语言模型可能产生的误判与重复识别等难题。为此，数据集引入了经过微调的二元分类器生成概率评分，以滤除低置信度记录，但如何进一步提升自动化流程的鲁棒性与泛化能力，确保在超十万份申报文件中实现高精度、全自动的信息抽取，仍是亟待突破的技术瓶颈。

常用场景

经典使用场景

在金融信息提取与公司治理研究领域，该数据集为分析高管薪酬结构提供了标准化的数据基础。研究者通常利用其包含的薪酬明细、公司标识及年份信息，对高管薪酬与企业绩效、行业特征及宏观经济周期之间的关联进行实证检验。通过过滤高置信度的SCT概率记录，能够确保分析所基于的表格数据具备高度的准确性与可靠性，从而支撑严谨的量化研究。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在两个方向：一是方法论上的改进，例如开发更精确的表格检测与信息提取模型，以提升数据质量与覆盖范围；二是应用研究的拓展，催生了一系列关于高管薪酬与公司股价波动、创新投入、ESG表现之间关系的实证研究。这些工作不仅验证了数据集的实用价值，也推动了计算金融与公司治理交叉学科的融合发展。

数据集最近研究