sat-catalogos
收藏Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/mayrop/sat-catalogos
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个与墨西哥税务和发票信息相关的CSV文件,主要分为两类:扣留发票和支付信息(Anexo 20 Factura de Retenciones e Información de Pagos)以及发票格式(Anexo 20 Formato de Factura)。数据集按版本(1.0、2.0、3.3、4.0)组织,涵盖多种税务相关类别,如扣留密钥、联邦实体、国家、周期性、纳税人类型、股息类型、税种、支付类型等。此外,还包括错误矩阵文件(matriz_de_errores),可能用于验证或合规性检查。数据集适用于税务合规、财务报告或相关应用场景,但具体用途和背景需进一步确认。
创建时间:
2026-03-21
原始信息汇总
数据集概述
基本信息
- 数据集名称: sat-catalogos
- 托管地址: https://huggingface.co/datasets/mayrop/sat-catalogos
数据集结构
该数据集由多个配置(config)组成,每个配置对应一个或多个CSV数据文件。所有数据文件均位于“train”分割下。
主要配置类别
-
Anexo 20 - Factura de Retenciones e Información de Pagos (扣留发票和付款信息)
- 版本: 1.0, 2.0
- 包含的目录文件示例:
c_cve_retenc(扣留密钥)c_entidades_federativas(联邦实体)c_paises/c_pais(国家)c_periodicidad(周期)c_tipo_contribuyente_sujeto_retenc(需扣留的纳税人类型)c_tipo_dividendo_utilidad_distrib(股息利润分配类型)c_tipode_impuesto/c_tipo_impuesto(税种)c_ejercicio(财年)c_periodo(期间)c_tipo_pago_ret(扣留付款类型)matriz_de_errores_cfdi_retenciones_v20(CFDI扣留错误矩阵)
-
Anexo 20 - Formato de Factura (发票格式)
- 版本: 3.3, 4.0
- 包含的目录文件示例:
c_aduana(海关)c_clave_prod_serv(产品服务代码)c_clave_unidad(单位代码)c_codigo_postal(邮政编码)c_forma_pago(支付方式)c_impuesto(税)c_metodo_pago(付款方法)c_moneda(货币)c_num_pedimento_aduana(海关申请号)c_pais(国家)c_patente_aduanal(海关许可证)c_regimen_fiscal(税收制度)c_tasa_ocuota(税率/配额)c_tipo_de_comprobante(凭证类型)c_tipo_factor(因子类型)c_tipo_relacion(关系类型)c_uso_cfdi(CFDI用途)c_colonia(社区/街区) - 仅4.0版本c_estado(州) - 仅4.0版本c_exportacion(出口) - 仅4.0版本c_localidad(地点) - 仅4.0版本c_meses(月份) - 仅4.0版本c_municipio(市政区) - 仅4.0版本c_objeto_imp(征税对象) - 仅4.0版本c_periodicidad(周期) - 仅4.0版本matriz_de_errores_cfdi_v33/matriz_de_errores_cfdi_v40(CFDI错误矩阵)
数据格式与访问
- 文件格式: 所有数据文件均为CSV格式。
- 数据分割: 全部数据均标记为“train”分割。
- 路径结构: 数据文件按照“附件/格式或主题/版本/具体目录文件.csv”的层级结构组织。
搜集汇总
数据集介绍

构建方式
在财税数字化领域,标准化的代码表是确保电子发票与扣缴信息合规性的基石。sat-catalogos数据集通过系统化地整合墨西哥税务管理局(SAT)发布的官方目录构建而成,涵盖了《附件20》中关于发票格式(CFDI)及扣缴信息申报的各类编码表。这些数据源自SAT公开的技术规范文档,经过结构化提取与清洗,以CSV格式组织,并依据规范版本(如3.3、4.0、1.0、2.0)和编码类型(如商品服务代码、税务制度、支付方式等)进行分版本、分类别存储,确保了数据的权威性与时效性。
使用方法
对于财税科技开发者与研究人员而言,该数据集可作为构建合规性验证引擎、发票生成系统或税务数据分析模型的基础资源。用户可通过Hugging Face数据集库加载特定config(如anexo_20_formato_de_factura__4_0__c_clave_prod_serv)来获取对应的代码表。在应用中,这些表格可用于映射代码与描述、验证输入数据的有效性,或结合错误矩阵实现自动化错误检测。数据集以统一的train分割提供,便于直接集成到数据处理流水线中,服务于墨西哥及拉美地区的财税数字化解决方案。
背景与挑战
背景概述
在税务数字化与电子发票合规性日益重要的背景下,sat-catalogos数据集应运而生,旨在为墨西哥税务管理提供标准化编码参考。该数据集由墨西哥税务管理局(SAT)创建,涵盖了多个版本的电子发票(CFDI)及扣缴信息相关的分类目录,如商品服务代码、税务制度、支付方式等。其核心研究问题聚焦于如何通过统一的数据标准,提升税务申报的自动化处理与错误检测效率,对推动拉美地区财税信息化具有深远影响。
当前挑战
该数据集致力于解决电子发票与税务申报自动化验证中的关键挑战,包括多版本标准并存导致的语义不一致性,以及复杂税务规则下的数据完整性校验。在构建过程中,面临的主要挑战涉及从官方文档中提取并结构化海量分类数据,确保不同版本间编码映射的准确性,同时需应对税务政策频繁更新所带来的维护负担。
常用场景
经典使用场景
在税务数字化与电子发票合规性领域,sat-catalogos数据集作为墨西哥税务管理系统的核心参考目录,其经典使用场景聚焦于电子发票(CFDI)的生成与验证过程。该数据集整合了多种标准化代码表,包括商品服务分类、税务制度、支付方式等关键字段,为财务软件和税务平台提供了权威的数据映射基础。通过嵌入这些规范化代码,系统能够自动匹配交易信息与官方要求,确保每张发票在格式、内容和逻辑上符合墨西哥税务局的严格规定,从而支撑起大规模电子发票的自动化处理流程。
解决学术问题
该数据集有效解决了税务信息标准化与互操作性方面的学术研究问题。在税务信息化研究中,不同系统间的数据孤岛和语义异构性长期阻碍了跨平台数据交换与分析。sat-catalogos通过提供统一、版本化的官方代码表,为学术界构建了研究税务数据语义一致性的基准框架。其意义在于,不仅降低了税务合规性验证的复杂性,还为税收政策模拟、企业税务行为分析等研究提供了结构化数据基础,推动了财税领域知识图谱与自动化审计方法的发展。
实际应用
在实际应用层面,sat-catalogos数据集被广泛集成于企业资源规划(ERP)系统、电子发票软件和税务申报平台中。墨西哥的企业和会计师事务所依赖这些代码表来配置其开票系统,确保每笔交易的税务属性准确无误。例如,在生成CFDI 4.0发票时,系统会自动调用数据集中的商品服务代码、税务制度等字段,避免人工输入错误。此外,该数据集还支持税务部门的稽查工具,通过比对发票数据与官方目录,快速识别异常或欺诈行为,提升了税收征管的效率和透明度。
数据集最近研究
最新研究方向
在财税数字化与合规自动化领域,sat-catalogos数据集作为墨西哥税务管理系统的官方代码表集合,正成为智能税务分析的关键基础设施。该数据集涵盖了从商品服务分类、税务代码到错误矩阵的标准化信息,为开发自动化合规检查与风险预警模型提供了结构化基础。随着拉美地区电子发票CFDI标准的迭代更新,研究者们正利用此类数据集构建跨版本兼容的语义映射系统,以应对税务法规动态变化带来的技术挑战。近期热点聚焦于结合自然语言处理技术解析复杂税务条款,并利用知识图谱整合多源代码表,旨在提升跨国企业税务申报的准确性与效率,其应用对促进区域税收透明化和打击金融欺诈具有深远意义。
以上内容由遇见数据集搜集并总结生成



