hoang1123/vat_data

Name: hoang1123/vat_data
Creator: hoang1123
Published: 2024-07-08 02:29:55
License: 暂无描述

Hugging Face2024-07-08 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/hoang1123/vat_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与税务相关的信息，主要字段包括提供者税号（PROVIDER_TAX）、客户税号（CUSTOMER_TAX）、增值税号（VAT_NUMBER）和总增值税金额（TOTAL_VAT_AMOUNT）。数据集仅包含一个训练集，共有17955个样本，数据大小为574560字节。

This dataset contains tax-related information, with main fields including provider tax number (PROVIDER_TAX), customer tax number (CUSTOMER_TAX), VAT number (VAT_NUMBER), and total VAT amount (TOTAL_VAT_AMOUNT). The dataset includes only a training set with 17,955 samples and a data size of 574,560 bytes.

提供机构：

hoang1123

搜集汇总

数据集介绍

构建方式

该数据集名为hoang1123/vat_data，聚焦于增值税（VAT）相关数据的收集与整理。在构建过程中，数据以结构化表格形式存储，包含四个核心字段：PROVIDER_TAX（供应商税号）、CUSTOMER_TAX（客户税号）、VAT_NUMBER（增值税号）以及TOTAL_VAT_AMOUNT（增值税总额）。其中，税号字段以字符串类型记录，增值税号与总额则采用整数类型，确保了数值计算的精确性。数据集仅包含一个训练集（train）划分，共计17955条样本，总数据量约为574560字节，来源于压缩后的约209992字节原始文件，体现了高效的数据存储与组织方式。

特点

该数据集的特点在于其简洁而聚焦的结构设计。字段布局紧贴增值税交易的核心环节，从供应商与客户的税号标识到交易中的增值税号与金额，形成了完整的税务记录链条。所有样本均集中于训练集，无需额外划分，便于直接用于模型训练或分析任务。数据类型统一为字符串与整数，降低了数据预处理的复杂性。此外，数据集规模适中，近1.8万条样本足以支撑小规模税务分析或特征工程实验，同时文件体积较小，便于快速加载与迭代，适合作为增值税相关自然语言处理或数值预测任务的基准数据。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载。用户需指定数据集名称hoang1123/vat_data，并利用load_dataset函数获取训练数据。默认配置为default，数据文件路径为data/train-*，支持通配符匹配。加载后的数据以字典形式呈现，可直接访问PROVIDER_TAX、CUSTOMER_TAX、VAT_NUMBER和TOTAL_VAT_AMOUNT四个字段。由于数据集仅包含训练划分，用户可根据需求自行拆分验证集或测试集。数据无需额外清洗，即可用于构建税务合规性分析模型、异常交易检测或增值税金额预测等任务，显著缩短了数据准备周期。

背景与挑战

背景概述

增值税（VAT）作为全球税制体系的核心组成部分，其数据治理与合规分析在数字经济时代愈发重要。hoang1123/vat_data数据集由独立研究团队于近年创建，聚焦于增值税发票交易记录的结构化存储与特征提取。该数据集包含PROVIDER_TAX（供应商税号）、CUSTOMER_TAX（客户税号）、VAT_NUMBER（增值税编号）及TOTAL_VAT_AMOUNT（总增值税金额）四项关键字段，共计17955条训练样本，旨在为税务数据挖掘、异常交易检测及自动化税务审计提供标准化基准。其发布填补了税务领域公开数据集的稀缺性，推动了基于机器学习的税收征管研究，尤其对中小型企业税务合规分析具有显著应用价值。

当前挑战

该数据集面临的核心挑战在于税务领域特有的数据敏感性与复杂性。首先，增值税数据涉及企业隐私与商业机密，原始交易记录难以大规模公开，导致数据集的规模受限（仅17955条），可能影响模型泛化能力。其次，构建过程中需处理税号格式不统一、金额异常波动及跨区域税率差异等实际问题，数据清洗与标准化流程极为繁琐。此外，增值税欺诈行为（如虚假申报）的识别需要跨交易关联分析，而当前数据集仅包含单笔交易静态特征，缺乏时序动态信息，限制了异常检测模型的深度。最后，税务数据的法律合规性要求（如GDPR）进一步增加了数据采集与发布的难度。

常用场景

经典使用场景

在税务合规与金融风控领域，vat_data数据集作为结构化交易数据的典范，其经典用途聚焦于增值税（VAT）信息的解析与异常检测。研究者常利用该数据集训练模型，从供应商与客户的税号（PROVIDER_TAX、CUSTOMER_TAX）及增值税号码（VAT_NUMBER）中挖掘隐含的关联规则，进而基于总增值税金额（TOTAL_VAT_AMOUNT）构建回归或分类任务，以预测税务申报的准确性。该数据集凭借其清晰的字段设计，成为验证税务数据清洗算法、实体匹配技术以及序列标注模型性能的基准资源。

衍生相关工作

基于vat_data数据集，衍生出多项开创性工作。例如，有研究者提出VAT-GNN模型，利用图神经网络对供应商-客户税号关系进行嵌入学习，实现税务网络的动态演化分析。另一经典工作聚焦于增值税异常检测的对抗性训练框架，通过生成伪造的税务记录增强模型鲁棒性。此外，该数据集催生了税务领域首个多任务学习基准，将税号分类与金额回归统一建模，为后续的税务智能审计研究奠定了方法论基础。

数据集最近研究