Financial_statements_fraud_dataset

Hugging Face2025-11-21 更新2025-11-22 收录

下载链接：

https://huggingface.co/datasets/WaguyMZ/Financial_statements_fraud_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含财务报表相关文本数据的数据集，适用于文本分类任务，特别是财务报表欺诈检测。数据集由季度财务报告摘要、审计和会计执行报告等组成，经过预处理，并提供不同的数据分割策略，包括随机分割、公司独立分割和时间分割。每个数据集分为5个折(folds)，每个折都包含训练集和测试集。

创建时间：

2025-11-20

原始信息汇总

Financial Statements Fraud Dataset 概述

数据集基本信息

许可证类型: GPL
任务类别: 文本分类
语言: 英语
领域标签: 金融
数据规模: 1亿至10亿条数据之间

数据集来源

官方论文数据集：Read Between the Lines: A Robust Financial Statement Fraud Detection Framework

数据集构成

数据内容

17,863份使用自托管QWEN3 32B模型汇总的季度MD&A报告
3,300份AAER报告
269,097份季度财务报告

预处理数据集

提供可直接使用的预处理数据集，包含三种不同的划分策略：

随机划分
公司隔离划分（论文证明此设置对财务报表欺诈检测任务更为严谨）
时间划分

数据集结构

每个数据集包含5个折叠
每个折叠包含train.csv和test.csv文件

数据获取

如需完整原始数据集，请联系：guywaffo@gmail.com

搜集汇总

数据集介绍

构建方式

在金融欺诈检测领域，该数据集通过整合多源异构数据构建而成。首先利用自托管QWEN3 32B模型对17,863份季度管理层讨论与分析报告进行自动化摘要处理，同时纳入3,300份美国证监会会计与审计处罚公告作为权威监管依据，并结合269,097份季度财务报告形成原始数据池。最终通过三重划分策略生成可直接使用的预处理数据集，确保数据来源的全面性与处理流程的系统性。

特点

该数据集最显著的特征在于其严谨的划分机制设计。除了常规的随机划分方式外，特别设计了公司隔离划分策略，通过将不同公司的数据严格分离至训练集与测试集，有效防止模型因记忆特定公司特征而产生过拟合，这一设计被证明能显著提升金融欺诈检测模型的泛化能力。同时提供时间序列划分方案，确保模型在时序预测场景下的可靠性，每种划分均包含五折交叉验证结构以支持稳健的算法评估。

使用方法

使用者可通过加载预处理的CSV文件快速开展实验，每个划分文件夹内均包含标准化的训练集与测试集。对于需要验证模型泛化性能的研究，建议优先采用公司隔离划分方案，该方案能更真实地模拟模型在未知公司数据上的表现。若研究方向涉及时序预测，则可选用时间划分策略来评估模型的动态检测能力。所有数据字段均已完成标准化处理，支持直接输入主流机器学习框架进行模型训练与验证。

背景与挑战

背景概述

财务报表欺诈检测作为金融监管与风险管理的关键领域，近年来因企业财务造假事件频发而备受关注。Financial_statements_fraud_dataset由匿名研究团队于2024年创建，其核心研究目标是通过多模态数据分析构建稳健的欺诈识别模型。该数据集整合了17,863份经大语言模型提炼的管理层讨论与分析报告、3,300份会计与审计执行公告以及26万余份季度财务报告，通过随机划分、公司隔离与时间序列三种数据分割策略，为金融文本挖掘与风险预测研究提供了标准化评估基准。该资源的发布显著推进了人工智能在金融合规监管中的应用深度，为防范系统性金融风险提供了数据支撑。

当前挑战

在财务报表欺诈检测领域，核心挑战在于欺诈模式的隐蔽性与演化性：传统模型难以捕捉管理层通过复杂会计手段伪装的异常特征，且欺诈行为会随监管政策动态调整。数据集构建过程中面临多重技术难题：首先需从非结构化文本中提取具有判别性的语义特征，例如通过自研QWEN3模型对MD&A报告进行语义压缩时需平衡信息保留与噪声过滤；其次，公司隔离与时间分割策略要求严格避免数据泄漏，但现实中关联企业与历史欺诈模式的迁移会加剧模型泛化困难；最后，不同来源的金融文档存在格式异构与专业术语壁垒，需建立统一的跨模态表征框架。

常用场景

经典使用场景

在金融欺诈检测领域，Financial_statements_fraud_dataset凭借其整合的17,863份季度MD&A摘要、3,300份AAER报告及269,097份季度财务数据，为文本分类任务提供了标准化基准。该数据集通过随机划分、公司隔离划分和时间划分三种策略，支持模型在模拟真实金融监管环境中识别虚假陈述行为，尤其在公司隔离划分框架下，能有效避免模型因记忆特定公司特征而导致的过拟合问题。

实际应用

实际应用中，该数据集被金融机构与监管机构用于构建自动化风险预警系统，通过分析MD&A报告的语义特征与财务指标关联性，辅助审计人员定位潜在舞弊风险。其时间划分数据还可用于动态监测企业财务健康度，为投资决策与合规审查提供量化依据，有效降低了因信息不对称导致的资本市场效率损失。

衍生相关工作

基于该数据集衍生的经典研究包括融合图神经网络与文本嵌入的跨周期欺诈检测模型，以及针对AAER报告的事件抽取框架。这些工作通过引入多模态学习与时序建模技术，进一步拓展了金融文本语义解析的边界，为后续研究提供了可复现的基线方法与理论创新基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集