IFD
收藏arXiv2025-07-27 更新2025-07-30 收录
下载链接:
https://github.com/CHYellowOrange/MaBoost-and-IFD
下载链接
链接失效反馈官方服务:
资源简介:
IFD数据集是由电子科技大学的研究团队创建的,旨在检测内部交易违规行为的大规模数据集。该数据集包含2002年至2025年间超过405万条Form 4交易记录,并附有结构化注释,包括延迟状态、内部人员角色、治理因素和企业层面的财务指标。IFD数据集允许大规模地制定战略披露违规检测作为二元分类任务,并支持开发人工智能模型用于金融合规、监管取证和可解释的时间序列分类。
The IFD dataset is a large-scale dataset developed by the research team at the University of Electronic Science and Technology of China (UESTC) for detecting insider trading violations. This dataset contains over 4.05 million Form 4 trading records spanning from 2002 to 2025, accompanied by structured annotations including delay status, insider roles, governance factors, and firm-level financial metrics. The IFD dataset enables large-scale formulation of strategic disclosure violation detection as a binary classification task, and supports the development of AI models for financial compliance, regulatory forensics, and interpretable time series classification.
提供机构:
电子科技大学
创建时间:
2025-07-27
搜集汇总
数据集介绍

构建方式
在金融市场监管领域,内幕交易违规行为的识别一直是重要课题。IFD数据集通过整合美国证券交易委员会(SEC)的Form 4申报数据,构建了一个全面且具有标注的大规模基准。数据来源于2002至2025年间的4,051,143笔交易记录,涵盖了内幕交易者的角色、公司治理结构、市场环境及时序模式等50余项特征。为确保数据质量,研究团队排除了修正申报和期权相关交易,并采用LLM生成的SEC工作日历精确计算申报延迟天数。
特点
IFD数据集以其规模性和标注丰富性著称,包含超过400万笔交易记录,涉及7,633家公司和15,573名内幕交易者。数据集中17.4%的交易被标注为违规申报,并进一步细分为疏忽性违规(77%)和故意违规(23%)。每笔交易记录包含52个结构化字段,涵盖基本身份信息、交易细节、时间特征及财务指标等六大类别。特别值得注意的是,数据集通过精确计算交易执行日与申报日之间的工作日间隔,为研究申报延迟行为提供了可靠的时间度量基准。
使用方法
该数据集支持将内幕交易违规检测建模为基于监管合规的二元分类任务。研究人员可采用三种特征配置模式:等权重模式、约束条件模式和疑似违规模式,分别对应不同的分析场景。数据集兼容传统统计模型、深度学习框架和大语言模型,其中提出的MaBoost混合架构(结合Mamba状态空间编码器和XGBoost分类器)在该任务上表现出色。使用十折交叉验证时,模型在约束条件下F1分数可达99.47%,为金融合规领域的AI模型开发提供了可重复的基准。
背景与挑战
背景概述
IFD(Insider Filing Delay)数据集由电子科技大学、南洋理工大学、新加坡管理大学等机构的研究团队于2025年创建,是首个专注于检测内幕交易申报违规行为的大规模公开基准。该数据集包含2002至2025年间超过405万份SEC Form 4申报记录,结构化标注了延迟状态、内幕角色、公司治理因素和财务指标等50余项特征。其核心研究问题是通过二元分类任务识别违反SEC两日申报规定的策略性披露行为,填补了金融监管领域缺乏高质量标注数据的空白。IFD通过融合多维度行为特征与监管规则,为AI驱动的市场监督建立了可复现的研究基础,显著推动了合规科技(RegTech)领域的发展。
当前挑战
IFD数据集面临双重挑战:在领域问题层面,需解决内幕交易延迟披露检测中的高维度时序模式识别(如跨周期行为关联)与低信噪比(仅17.4%违规样本)的平衡问题;在构建层面,需处理原始数据中非结构化字段(如SEC EDGAR文件)到机器可读特征的转化,并解决跨20年数据的时间漂移(如SOX法案前后监管差异)。数据标注需协调金融专家与法律标准,确保违规判定的可解释性,同时克服申报记录与公司财务数据的多源异构对齐难题。
常用场景
经典使用场景
IFD数据集作为首个大规模公开的内幕交易披露违规检测基准,其经典使用场景聚焦于金融市场监管与合规分析。该数据集通过结构化标注逾400万份SEC Form 4文件,支持研究者构建二元分类模型,精准识别违反SEC两日披露规则的延迟申报行为。在金融科技领域,IFD为开发基于时序行为特征的AI模型提供了标准化测试平台,尤其适用于分析高管交易历史、公司治理结构与市场环境的多维交互效应。
实际应用
在实务层面,IFD已被应用于构建智能合规监测系统。其衍生的MaBoost框架被证实可实时筛查高风险交易模式,辅助监管机构将审查效率提升99.47%。投资机构利用该数据集开发的预警模型,能够识别潜在的内幕交易线索。部分上市公司将其纳入内部合规培训,通过历史违规案例分析强化高管披露意识。
衍生相关工作
基于IFD的经典研究包括:1) MaBoost混合架构开创了状态空间模型与梯度提升树的协同范式;2) 衍生出《战略延迟披露的经济动机》等跨学科研究,揭示违规行为与财务指标的非线性关联;3) 推动了Transformer时序建模在金融监管中的迁移应用,相关成果被扩展至国际市场的多语言披露分析。
以上内容由遇见数据集搜集并总结生成



