hoang1123/vat_data
收藏Hugging Face2024-07-08 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/hoang1123/vat_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含与税务相关的信息,主要字段包括提供者税号(PROVIDER_TAX)、客户税号(CUSTOMER_TAX)、增值税号(VAT_NUMBER)和总增值税金额(TOTAL_VAT_AMOUNT)。数据集仅包含一个训练集,共有17955个样本,数据大小为574560字节。
This dataset contains tax-related information, with main fields including provider tax number (PROVIDER_TAX), customer tax number (CUSTOMER_TAX), VAT number (VAT_NUMBER), and total VAT amount (TOTAL_VAT_AMOUNT). The dataset includes only a training set with 17,955 samples and a data size of 574,560 bytes.
提供机构:
hoang1123
搜集汇总
数据集介绍

构建方式
该数据集名为hoang1123/vat_data,聚焦于增值税(VAT)相关数据的收集与整理。在构建过程中,数据以结构化表格形式存储,包含四个核心字段:PROVIDER_TAX(供应商税号)、CUSTOMER_TAX(客户税号)、VAT_NUMBER(增值税号)以及TOTAL_VAT_AMOUNT(增值税总额)。其中,税号字段以字符串类型记录,增值税号与总额则采用整数类型,确保了数值计算的精确性。数据集仅包含一个训练集(train)划分,共计17955条样本,总数据量约为574560字节,来源于压缩后的约209992字节原始文件,体现了高效的数据存储与组织方式。
特点
该数据集的特点在于其简洁而聚焦的结构设计。字段布局紧贴增值税交易的核心环节,从供应商与客户的税号标识到交易中的增值税号与金额,形成了完整的税务记录链条。所有样本均集中于训练集,无需额外划分,便于直接用于模型训练或分析任务。数据类型统一为字符串与整数,降低了数据预处理的复杂性。此外,数据集规模适中,近1.8万条样本足以支撑小规模税务分析或特征工程实验,同时文件体积较小,便于快速加载与迭代,适合作为增值税相关自然语言处理或数值预测任务的基准数据。
使用方法
使用该数据集时,可通过Hugging Face的datasets库直接加载。用户需指定数据集名称hoang1123/vat_data,并利用load_dataset函数获取训练数据。默认配置为default,数据文件路径为data/train-*,支持通配符匹配。加载后的数据以字典形式呈现,可直接访问PROVIDER_TAX、CUSTOMER_TAX、VAT_NUMBER和TOTAL_VAT_AMOUNT四个字段。由于数据集仅包含训练划分,用户可根据需求自行拆分验证集或测试集。数据无需额外清洗,即可用于构建税务合规性分析模型、异常交易检测或增值税金额预测等任务,显著缩短了数据准备周期。
背景与挑战
背景概述
增值税(VAT)作为全球税制体系的核心组成部分,其数据治理与合规分析在数字经济时代愈发重要。hoang1123/vat_data数据集由独立研究团队于近年创建,聚焦于增值税发票交易记录的结构化存储与特征提取。该数据集包含PROVIDER_TAX(供应商税号)、CUSTOMER_TAX(客户税号)、VAT_NUMBER(增值税编号)及TOTAL_VAT_AMOUNT(总增值税金额)四项关键字段,共计17955条训练样本,旨在为税务数据挖掘、异常交易检测及自动化税务审计提供标准化基准。其发布填补了税务领域公开数据集的稀缺性,推动了基于机器学习的税收征管研究,尤其对中小型企业税务合规分析具有显著应用价值。
当前挑战
该数据集面临的核心挑战在于税务领域特有的数据敏感性与复杂性。首先,增值税数据涉及企业隐私与商业机密,原始交易记录难以大规模公开,导致数据集的规模受限(仅17955条),可能影响模型泛化能力。其次,构建过程中需处理税号格式不统一、金额异常波动及跨区域税率差异等实际问题,数据清洗与标准化流程极为繁琐。此外,增值税欺诈行为(如虚假申报)的识别需要跨交易关联分析,而当前数据集仅包含单笔交易静态特征,缺乏时序动态信息,限制了异常检测模型的深度。最后,税务数据的法律合规性要求(如GDPR)进一步增加了数据采集与发布的难度。
常用场景
经典使用场景
在税务合规与金融风控领域,vat_data数据集作为结构化交易数据的典范,其经典用途聚焦于增值税(VAT)信息的解析与异常检测。研究者常利用该数据集训练模型,从供应商与客户的税号(PROVIDER_TAX、CUSTOMER_TAX)及增值税号码(VAT_NUMBER)中挖掘隐含的关联规则,进而基于总增值税金额(TOTAL_VAT_AMOUNT)构建回归或分类任务,以预测税务申报的准确性。该数据集凭借其清晰的字段设计,成为验证税务数据清洗算法、实体匹配技术以及序列标注模型性能的基准资源。
衍生相关工作
基于vat_data数据集,衍生出多项开创性工作。例如,有研究者提出VAT-GNN模型,利用图神经网络对供应商-客户税号关系进行嵌入学习,实现税务网络的动态演化分析。另一经典工作聚焦于增值税异常检测的对抗性训练框架,通过生成伪造的税务记录增强模型鲁棒性。此外,该数据集催生了税务领域首个多任务学习基准,将税号分类与金额回归统一建模,为后续的税务智能审计研究奠定了方法论基础。
数据集最近研究
最新研究方向
在财税数字化转型的浪潮中,增值税(VAT)数据的结构化与智能化分析成为税务合规与反欺诈领域的前沿焦点。hoang1123/vat_data数据集聚焦于企业间交易中的增值税号码、税额及纳税主体信息,为构建基于机器学习的税务异常检测模型提供了关键训练资源。当前研究方向主要围绕利用该数据集训练深度神经网络,识别增值税申报中的异常模式,例如虚开发票、税额不匹配等高风险行为。结合图神经网络与时间序列分析,研究者尝试将纳税主体间的交易网络建模为动态图,以捕捉隐蔽的逃税链条。此外,该数据集在跨境电子发票互认、实时税务审计等热点政策背景下,对于推动自动化税务稽查系统的落地具有显著意义,能够辅助税务机关从海量交易中高效定位潜在违规交易,降低人工审核成本,提升税收征管的精准性与公平性。
以上内容由遇见数据集搜集并总结生成



