five

execcomp-ai-sample

收藏
Hugging Face2026-01-04 更新2026-01-05 收录
下载链接:
https://huggingface.co/datasets/pierjoe/execcomp-ai-sample
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从SEC文件中提取的**摘要补偿表**,包括: - 原始表格图像 - HTML表格结构 - 带有执行补偿详细信息的结构化JSON - 来自微调二元分类器的**SCT概率分数**(用于过滤误报) > 💡 **提示**:通过`sct_probability >= 0.7`过滤以获得高置信度的SCT记录。
创建时间:
2025-12-31
原始信息汇总

数据集概述

基本信息

  • 数据集名称: SEC Executive Compensation Dataset
  • 数据集地址: https://huggingface.co/datasets/pierjoe/execcomp-ai-sample
  • 许可证: MIT License
  • 主要语言: 英语 (en)
  • 任务类别: 表格到文本 (table-to-text)
  • 数据规模: 10K<n<100K
  • 标签: 金融 (finance)、美国证券交易委员会 (sec)、高管薪酬 (executive-compensation)、DEF 14A、委托声明书 (proxy-statements)

数据集状态

  • 当前状态: 正在积极开发和扩展中。
  • 当前版本记录数: 约 12,000 条记录。
  • 目标规模: 超过 100,000 份 SEC 文件 (2005-2022)。
  • 使用警告: 数据可能包含错误或不一致之处;模式和字段可能会更改;记录将定期添加;统计信息将随处理过程更新;仅限研究用途,风险自负。

数据内容与来源

  • 数据描述: 包含从美国证券交易委员会 (SEC) DEF 14A 委托声明书中提取的结构化高管薪酬数据。
  • 具体内容: 摘要薪酬表 (Summary Compensation Tables),包含原始表格图像、HTML 表格结构、包含高管薪酬详细信息的结构化 JSON 以及来自微调二元分类器的 SCT 概率分数。
  • 数据来源: 从 SEC EDGAR (https://www.sec.gov/edgar) 提取的 DEF 14A 文件。

数据集特征 (Features)

字段名 数据类型 描述
cik string SEC 中央索引密钥
company string 公司名称
year int64 申报年份
filing_date string SEC 申报日期
sic string 标准行业分类代码
state_of_inc string 注册所在州
filing_html_index string SEC 申报文件链接
accession_number string SEC 登记号
table_image image 提取的表格图像
table_body string HTML 表格内容
executives string 高管薪酬的 JSON 数组
sct_probability float64 该表为真实 SCT 的概率 (0-1,来自微调分类器)

高管数据模式 (Executive Schema)

json { "name": "John Smith", "title": "CEO", "fiscal_year": 2023, "salary": 500000, "bonus": 100000, "stock_awards": 2000000, "option_awards": 500000, "non_equity_incentive": 300000, "change_in_pension": 50000, "other_compensation": 25000, "total": 3475000 }

数据划分 (Splits)

划分名称 记录数量 描述
train 12,022 所有记录的合并
year_2005 468 按申报年份筛选的记录
year_2006 492 按申报年份筛选的记录
year_2007 512 按申报年份筛选的记录
year_2008 486 按申报年份筛选的记录
year_2009 472 按申报年份筛选的记录
year_2010 429 按申报年份筛选的记录
year_2011 434 按申报年份筛选的记录
year_2012 391 按申报年份筛选的记录
year_2013 384 按申报年份筛选的记录
year_2014 430 按申报年份筛选的记录
year_2015 434 按申报年份筛选的记录
year_2016 357 按申报年份筛选的记录
year_2017 369 按申报年份筛选的记录
year_2018 374 按申报年份筛选的记录
year_2019 344 按申报年份筛选的记录
year_2020 4,867 按申报年份筛选的记录
year_2021 393 按申报年份筛选的记录
year_2022 386 按申报年份筛选的记录

使用建议

  • SCT 概率过滤: 建议使用 sct_probability >= 0.7 进行过滤,以获得高置信度的 SCT 记录,减少误报(如董事薪酬表)和重复项的影响。

方法论

数据使用以下工具从 SEC EDGAR DEF 14A 文件中提取:

  • 表格提取: 使用 MinerU 进行基于 VLM 的 PDF 表格提取。
  • 分类与提取: 使用 Qwen3-VL-32B 进行分类和数据提取。

处理流程

  1. 从 SEC EDGAR 下载 DEF 14A PDF 文件。
  2. 使用 MinerU 提取表格。
  3. 对表格进行分类以识别摘要薪酬表。
  4. 合并跨页分割的表格。
  5. 使用 VLM 提取结构化薪酬数据。

引用

如果研究中使用此数据集,请引用: bibtex @dataset{execcomp_ai_2026, author = {Di Pasquale, Pier Paolo}, title = {SEC Executive Compensation Dataset}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/pierjoe/execcomp-ai-sample}, note = {AI-extracted executive compensation data from SEC DEF 14A filings (2005-2022)} }

或文本格式:

Di Pasquale, P. P. (2026). SEC Executive Compensation Dataset. Hugging Face. https://huggingface.co/datasets/pierjoe/execcomp-ai-sample

相关链接

  • GitHub 项目: https://github.com/pierpierpy/Execcomp-AI
  • SEC EDGAR: https://www.sec.gov/edgar
搜集汇总
数据集介绍
main_image_url
构建方式
在金融信息披露领域,美国证券交易委员会(SEC)的DEF 14A委托声明书是获取高管薪酬数据的关键来源。execcomp-ai-sample数据集通过一套自动化流程构建而成,首先从SEC EDGAR系统下载2005年至2022年间的DEF 14A PDF文件,随后利用基于视觉语言模型(VLM)的MinerU工具进行表格提取。通过Qwen3-VL-32B模型对提取的表格进行分类,以识别其中的高管薪酬汇总表(SCT),并对跨页表格进行合并处理,最终借助VLM技术将表格内容转化为结构化的JSON格式薪酬数据。
特点
该数据集在金融文本结构化领域展现出显著特色,其核心在于融合了多模态数据表示。每条记录不仅包含原始表格图像和HTML结构,还提供了经解析的高管薪酬JSON数组,涵盖了薪资、奖金、股权奖励等详细字段。尤为独特的是,数据集引入了经过微调的二元分类器生成的sct_probability分数,该概率值有助于研究者有效筛选出高置信度的真实薪酬汇总表,从而减少误报和重复条目。数据按年份进行分割,便于进行纵向趋势分析。
使用方法
为支持金融与计算社会科学研究,该数据集可通过Hugging Face的datasets库便捷加载。研究者可选择加载完整的训练集,或按特定年份分割进行针对性分析。为提升数据质量,建议在加载后应用过滤器,仅保留sct_probability值不低于0.7的高置信度记录。数据可轻松转换为Pandas DataFrame,便于进行统计分析,例如计算年度平均薪酬或识别薪酬最高的高管。表格图像可作为PIL对象直接查看,为多模态分析提供了便利。
背景与挑战
背景概述
在金融信息学与计算社会科学交叉领域,高管薪酬数据的结构化提取与分析是公司治理与金融监管研究的核心课题。SEC Executive Compensation数据集由研究人员Pier Paolo Di Pasquale于2026年构建并发布,旨在从美国证券交易委员会(SEC)的DEF 14A委托声明书中,自动化提取2005年至2022年间的高管薪酬汇总表。该数据集依托先进视觉语言模型与信息抽取技术,将非结构化的PDF文档转化为包含图像、HTML及结构化JSON的多模态数据,为薪酬公平性、激励政策与企业绩效关联性等研究提供了大规模、细粒度的实证基础,显著推动了金融文本智能处理与可计算经济学的发展。
当前挑战
该数据集致力于解决金融文档中复杂表格信息的精准识别与结构化转换问题,其核心挑战在于区分真正的薪酬汇总表与相似结构的其他表格,如董事薪酬表,并处理跨页表格的合并与数据一致性。构建过程中,面临原始PDF格式多样、表格布局异构以及视觉语言模型可能产生的误判与重复识别等难题。为此,数据集引入了经过微调的二元分类器生成概率评分,以滤除低置信度记录,但如何进一步提升自动化流程的鲁棒性与泛化能力,确保在超十万份申报文件中实现高精度、全自动的信息抽取,仍是亟待突破的技术瓶颈。
常用场景
经典使用场景
在金融信息提取与公司治理研究领域,该数据集为分析高管薪酬结构提供了标准化的数据基础。研究者通常利用其包含的薪酬明细、公司标识及年份信息,对高管薪酬与企业绩效、行业特征及宏观经济周期之间的关联进行实证检验。通过过滤高置信度的SCT概率记录,能够确保分析所基于的表格数据具备高度的准确性与可靠性,从而支撑严谨的量化研究。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在两个方向:一是方法论上的改进,例如开发更精确的表格检测与信息提取模型,以提升数据质量与覆盖范围;二是应用研究的拓展,催生了一系列关于高管薪酬与公司股价波动、创新投入、ESG表现之间关系的实证研究。这些工作不仅验证了数据集的实用价值,也推动了计算金融与公司治理交叉学科的融合发展。
数据集最近研究
最新研究方向
在金融科技与公司治理交叉领域,SEC高管薪酬数据集正推动前沿研究。当前研究聚焦于利用多模态大模型技术,如Qwen3-VL系列,对SEC文件中的表格图像进行智能解析与分类,以精准提取结构化薪酬数据。这一方向紧密关联企业透明度与ESG投资热点,通过自动化处理海量监管文件,为薪酬公平性分析、高管激励效应评估以及监管合规监测提供数据基石。其意义在于革新传统金融文档处理范式,借助概率评分机制提升数据可靠性,为学术界与政策制定者提供动态、细粒度的长期观测视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作