amitkedia/Financial-Fraud-Dataset

Name: amitkedia/Financial-Fraud-Dataset
Creator: amitkedia
Published: 2023-12-19 14:17:46
License: 暂无描述

Hugging Face2023-12-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/amitkedia/Financial-Fraud-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集了提交给美国证券交易委员会（SEC）的各种公司的财务文件。数据集包括85家涉及欺诈案件的公司和同等数量的未涉及欺诈活动的公司。文件列包含公司管理层讨论与分析（MD&A）以及公司在SEC网站上列出的多年财务报表。该数据集用于使用多种大型语言模型（LLMs）和传统机器学习模型进行金融欺诈检测的研究。

This dataset gathers financial documents of various companies filed with the U.S. Securities and Exchange Commission (SEC). It comprises 85 companies involved in fraud cases and an equal number of firms free from fraudulent activities. The document columns within the dataset contain Management's Discussion and Analysis (MD&A) as well as multi-year financial statements of the companies as disclosed on the SEC website. This dataset is employed for research on financial fraud detection leveraging multiple large language models (LLMs) and traditional machine learning models.

提供机构：

amitkedia

原始信息汇总

数据集卡片：Financial Fraud Labeled Dataset

数据集详情

概述

该数据集收集了来自美国证券交易委员会（SEC）提交的多家公司的财务报告。数据集包括85家涉及欺诈案件的公司和85家未涉及欺诈活动的公司。报告列包括公司多年来的MD&A和财务报表等信息。

用途

该数据集用于通过多种大型语言模型（LLMs）和传统机器学习模型进行财务欺诈检测的研究。

数据集来源

仓库： GitHub
论文： Financial Fraud Detection using LLMs

直接使用

python from datasets import load_dataset dataset = load_dataset("amitkedia/Financial-Fraud-Dataset")

超出范围的使用

该数据集主要用于学术研究。
文本需要进一步清理以进行处理。
数据集仅涵盖美国证券交易委员会（SEC）的欺诈案例，仅限于美国公司。

数据集结构

数据集结构请参阅数据集查看器。

数据集创建

请参阅论文了解数据集创建的详细信息。

创建动机

帮助金融行业开发最佳模型以检测欺诈活动，从而为政府和银行节省数十亿美元。

数据收集和处理

请参阅论文了解数据收集和处理的详细信息。

数据集卡片作者

Amit Kedia

搜集汇总

数据集介绍

构建方式

该数据集通过收集美国证券交易委员会（SEC）提交的各类公司财务报告构建而成，涵盖了85家涉及欺诈案件的公司及同等数量的非欺诈公司。数据集中包含公司的管理层讨论与分析（MD&A）以及多年财务报表，旨在为金融欺诈检测研究提供基础数据。数据集的构建过程严格遵循学术研究标准，确保数据的可靠性与代表性。

特点

该数据集的特点在于其专注于金融欺诈检测领域，提供了丰富的文本数据，包括公司的财务报告和管理层讨论与分析。数据集平衡了欺诈与非欺诈案例，便于模型训练与评估。此外，数据集以英文为主，适用于自然语言处理任务，尤其是文本分类。其规模适中，包含数千条记录，适合用于机器学习与深度学习模型的训练与验证。

使用方法

该数据集可直接用于金融欺诈检测的研究与模型开发。用户可通过Hugging Face的`datasets`库加载数据集，代码示例如下：`dataset = load_dataset('amitkedia/Financial-Fraud-Dataset')`。数据集适用于文本分类任务，用户可基于其构建机器学习或深度学习模型，以识别潜在的金融欺诈行为。需要注意的是，数据集主要用于学术研究，使用前需对文本进行清洗与预处理。

背景与挑战

背景概述

amitkedia/Financial-Fraud-Dataset数据集由Amit Kedia于近年创建，旨在通过分析美国证券交易委员会（SEC）提交的公司财务报告，研究金融欺诈检测问题。该数据集包含85家涉及欺诈案件的公司及同等数量的非欺诈公司，涵盖了公司多年来的管理层讨论与分析（MD&A）及财务报表信息。该数据集的核心研究问题在于利用大语言模型（LLMs）和传统机器学习模型，提升金融欺诈检测的准确性与效率。其研究成果对金融行业具有重要影响，能够帮助政府和银行节省数十亿美元的资金。

当前挑战

该数据集在构建与应用过程中面临多重挑战。首先，金融欺诈检测领域的数据通常具有高度不平衡性，欺诈案例远少于非欺诈案例，这导致模型训练时容易出现过拟合问题。其次，财务报告文本的复杂性要求数据预处理阶段进行大量清洗与标准化工作，以确保模型能够有效提取关键特征。此外，数据集仅涵盖美国证券交易委员会（SEC）的公司案例，限制了其在国际金融欺诈检测中的泛化能力。最后，尽管数据集为学术研究提供了重要支持，但其规模相对较小，可能无法完全覆盖金融欺诈的多样性与复杂性。

常用场景

经典使用场景

在金融欺诈检测领域，amitkedia/Financial-Fraud-Dataset数据集被广泛应用于训练和评估多种机器学习模型，包括传统机器学习算法和大型语言模型（LLMs）。该数据集通过提供来自美国证券交易委员会（SEC）的公司财务报告，特别是管理层讨论与分析（MD&A）部分，为研究人员提供了丰富的文本数据，用于识别潜在的欺诈行为。

实际应用

在实际应用中，amitkedia/Financial-Fraud-Dataset数据集被金融机构和监管机构用于开发自动化欺诈检测系统。这些系统能够实时分析公司提交的财务报告，识别潜在的欺诈风险，从而帮助银行和政府节省数十亿美元的资金损失。此外，该数据集还可用于培训金融分析师，提升其对欺诈行为的敏感度。

衍生相关工作

基于amitkedia/Financial-Fraud-Dataset数据集，衍生了一系列经典研究工作。例如，研究人员利用该数据集开发了基于深度学习的欺诈检测模型，进一步提升了检测精度。此外，该数据集还被用于探索多模态学习方法，结合文本与财务数据，以更全面地识别欺诈行为。这些工作不仅推动了学术研究的进展，也为金融行业的实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集