five

Chinese A-share companies financial records|公司财务数据集|欺诈检测数据集

收藏
arXiv2025-02-27 更新2025-02-28 收录
公司财务
欺诈检测
下载链接:
https://github.com/wangskyGit/KeHGN-R
下载链接
链接失效反馈
资源简介:
该数据集包含了来自中国A股市场上市公司18年的财务记录,并带有欺诈标签。数据集涵盖了主板市场、创业板市场以及中小企业板市场的公司。通过收集董事/监事/高管(DSE)和关联方交易(RPT)的实例,构建了3个带有欺诈标签的财务图数据集。这些数据集揭示了信息过载和隐藏欺诈两大挑战,对欺诈检测效果有重大影响。
提供机构:
南京大学
创建时间:
2025-02-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
为了解决公司欺诈检测中丰富交互信息的有效整合问题,我们收集了中国A股上市公司18年的财务记录,构建了三个具有欺诈标签的图数据集。我们分析了财务图的特性,并揭示了两个主要问题:信息过载和隐藏欺诈。为了应对这些挑战,我们提出了一个名为KeGCNR的新型图学习方法,该方法利用知识图谱嵌入来减轻信息过载,并采用两阶段学习方法来提高鲁棒性。
特点
该数据集具有以下特点:包含18年的A股公司财务记录,构建了三个具有欺诈标签的图数据集,涵盖了丰富的公司网络信息,如关联方交易和董事/监事/高管信息。数据集揭示了信息过载和隐藏欺诈两个主要问题,并提出了KeGCNR方法来解决这些问题。该数据集为研究公司欺诈检测提供了重要的数据支持。
使用方法
该数据集可用于公司欺诈检测的研究。用户可以使用KeGCNR方法或其它图学习方法来进行欺诈检测。在使用数据集时,用户需要考虑信息过载和隐藏欺诈两个问题,并选择合适的模型和方法。用户还可以使用数据集来评估模型的性能,并进一步改进模型。
背景与挑战
背景概述
企业欺诈检测旨在自动识别在股票市场上进行欺诈财务报表或非法内幕交易等不当行为的企业。为了填补先前学习方法未能有效整合公司网络中丰富交互的空白,研究人员收集了中国18年的财务记录,形成了三个带有欺诈标签的图数据集。他们分析了财务图的特征,突出了两个明显的问题:1)信息过载:非公司节点(噪声)在公司节点中的主导地位阻碍了图卷积网络(GCN)中的消息传递过程;2)隐藏欺诈:在收集的数据中存在大量可能未检测到的违规行为。隐藏欺诈问题将在训练数据集中引入噪声标签,从而损害欺诈检测结果的准确性。为了应对这些挑战,研究人员提出了一种新颖的基于图的模型,即知识增强GCN与鲁棒两阶段学习(KeGCNR),该模型利用知识图嵌入来减轻信息过载并有效地学习丰富的表示。所提出的模型采用两阶段学习方法来增强对隐藏欺诈的鲁棒性。广泛的实验结果不仅证实了交互的重要性,而且还表明KeGCNR在欺诈检测有效性和鲁棒性方面优于许多强大的基线。
当前挑战
该数据集面临的挑战包括:1)信息过载:在图卷积网络中,非公司节点(噪声)在公司节点中的主导地位阻碍了消息传递过程;2)隐藏欺诈:在收集的数据中存在大量可能未检测到的违规行为。隐藏欺诈问题将在训练数据集中引入噪声标签,从而损害欺诈检测结果的准确性。为了应对这些挑战,研究人员提出了一种新颖的基于图的模型,即知识增强GCN与鲁棒两阶段学习(KeGCNR),该模型利用知识图嵌入来减轻信息过载并有效地学习丰富的表示。所提出的模型采用两阶段学习方法来增强对隐藏欺诈的鲁棒性。
常用场景
经典使用场景
本数据集的经典使用场景是针对中国A股上市公司的财务记录进行公司欺诈检测。通过对18年的财务记录进行分析,研究人员构建了包含欺诈标签的三个图数据集,以帮助自动识别进行非法活动的公司,如欺诈性财务报表或非法内幕交易。这些数据集可以帮助监管机构和审计师建立自动系统,以协助他们进行欺诈检测。
解决学术问题
本数据集解决了公司欺诈检测中两个主要学术研究问题:信息过载和隐藏欺诈。信息过载问题是指在公司网络中,非公司节点(如董事、监事、高管和关联方交易)的数量远远超过公司节点,这阻碍了图卷积网络(GCN)中的信息传递过程。隐藏欺诈问题是指数据中存在大量可能未被检测到的违规行为,这些隐藏欺诈行为会导致训练数据集中出现噪声标签,从而影响欺诈检测结果的准确性。为了解决这些问题,研究人员提出了一种新的基于图的模型,即知识增强的GCN与鲁棒的两阶段学习(KeGCNR),该模型利用知识图谱嵌入来减轻信息过载问题,并通过两阶段学习方法增强对隐藏欺诈的鲁棒性。
衍生相关工作
本数据集衍生了多项相关的研究工作,包括但不限于:知识图谱嵌入、图神经网络、鲁棒学习等。这些研究工作进一步推动了公司欺诈检测领域的发展,并为其他金融领域的研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集