HTS CROSS Rulings Dataset

Name: HTS CROSS Rulings Dataset
Creator: Flexify.AI
Published: 2025-09-23 04:32:24
License: 暂无描述

arXiv2025-09-23 更新2025-09-25 收录

下载链接：

https://huggingface.co/datasets/flexifyai/cross_rulings_hts_dataset_for_tariffs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集为全球贸易中的商品分类提供了一个基准，来源于美国海关在线搜索系统（CROSS）。数据集包含18731个案例，涵盖了2992个独特的HTS代码，跨越了广泛的商品类别。数据集被分为训练集、验证集和测试集，用于评估大型语言模型在关税分类任务上的表现。数据集的创建旨在解决全球贸易中的商品分类问题，通过提供一个大规模的、真实世界的基准来促进机器学习社区的研究。

This dataset serves as a benchmark for commodity classification in global trade, sourced from the U.S. Customs Online Search System (CROSS). It contains 18,731 samples, covering 2,992 unique HTS codes and spanning a wide range of commodity categories. The dataset is split into training, validation, and test sets, which are used to evaluate the performance of large language models on tariff classification tasks. It was developed to address the commodity classification problem in global trade, providing a large-scale, real-world benchmark to facilitate research within the machine learning community.

提供机构：

Flexify.AI

创建时间：

2025-09-23

原始信息汇总

CROSS Rulings HTS 数据集概述

数据集基本信息

许可证: MIT
语言: 英语
数据集名称: CROSS Rulings HTS Dataset
数据规模: 10K < n < 100K
标签: 海关、关税、贸易、LLM基准、分类、HTS、机器学习、全球贸易
任务类别: 文本分类、问答

数据集来源与内容

数据来源于美国海关与边境保护局裁决在线搜索系统。
包含进口商寻求澄清正确协调关税表代码的裁决。
数据总量: 18,731条裁决，涵盖2,992个唯一HTS代码。
数据划分: 训练集18,254条、验证集200条、测试集200条。
数据结构: 采用LLM可训练格式，包含产品描述、推理路径和正确HTS代码。

任务目标

支持HTS代码预测任务：
- 10位美国特定HTS代码分类
- 6位全球协调HS代码分类
适用于文本分类、问答和结构化输出推理任务。

基准测试结果

在200个保留CROSS裁决上评估多个模型性能：

模型	10位准确率	6位准确率	平均正确位数
GPT-5-Thinking	25.0%	55.5%	5.61
Gemini-2.5-Pro-Thinking	13.5%	31.0%	2.92
DeepSeek-R1 (05/28)	2.5%	26.5%	3.24
GPT-OSS-120B	1.5%	8.0%	2.58
LLaMA-3.3-70B (基线)	2.1%	20.7%	3.31
Atlas (微调LLaMA)	40.0%	57.5%	6.30

引用信息

论文标题: ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification
作者: Pritish Yuvraj, Siva Devarakonda
年份: 2025
arXiv编号: 2509.18400
论文链接: https://arxiv.org/abs/2509.18400

作者信息

Pritish Yuvraj (Flexify.AI)
Siva Devarakonda (Flexify.AI)

致谢

数据源自美国海关裁决在线搜索系统：https://rulings.cbp.gov/
协调关税表参考：https://hts.usitc.gov/

搜集汇总

数据集介绍

构建方式

在海关关税分类领域，HTS CROSS Rulings Dataset的构建依托美国海关裁定在线检索系统（CROSS）的权威法律裁决数据。研究团队开发了自动化浏览器代理程序，系统化抓取CROSS平台中数千份未结构化的HTML裁定文件，并通过官方HTS美国网站匹配对应的10位税则编码。经过数据清洗与筛选，最终形成包含18,731条裁定的数据集，覆盖2,992个独特HTS编码。每条裁定通过GPT-4o-mini模型转化为结构化提示-响应格式，强制模型同步生成产品描述、推理路径和税则编码，为监督学习提供标准化输入输出框架。

特点

该数据集的核心特征体现在其法律权威性与层次化分类结构。所有裁定均来自美国海关与边境保护局具有法律约束力的正式裁决，确保了分类案例的实践价值与准确性。数据天然遵循HTS编码的深层层次体系，前6位为全球通用编码，后4位为美国特定扩展，使得模型评估可同时关注国际通用性与区域合规性。数据分布反映了真实贸易场景中的高频争议类别，其文本长度与细微语义差异（如半成品与成品的界定）为模型推理能力提出严峻挑战。

使用方法

数据集采用严格划分的训练集（18,254条）、验证集与测试集（各200条）结构，确保模型开发与评估的隔离性。使用者可通过Hugging Face平台获取标准化格式数据，直接用于监督微调任务。输入模板整合裁定编号、摘要及全文等多元字段，输出要求同步生成编码与推理链，支持链式思维训练范式。评估时需采用三层指标：10位全码匹配衡量端到端分类精度，6位通用码匹配评估国际适用性，平均位数准确率捕捉细粒度改进。这种设计使数据集兼具基准测试工具与实际部署指导的双重功能。

背景与挑战

背景概述

协调关税制度分类作为全球贸易合规的核心环节，长期以来依赖人工判例却缺乏标准化机器学习基准。2025年，Flexify.AI研究团队基于美国海关裁决在线检索系统（CROSS）构建了首个开放源代码的HTS分类数据集，涵盖18,731项具有法律效力的海关裁决。该数据集通过自动化爬虫技术整合了产品描述与十位税则号的对应关系，旨在解决因税则号误判导致的国际贸易流中断问题。其层次化结构不仅反映了世界海关组织制定的全球统一前六位编码规则，更通过美国特有的后四位扩展编码深化了区域合规性研究，为LLM在贸易政策推理领域的应用开辟了新路径。

当前挑战

税则号分类任务面临双重挑战：在领域问题层面，17,000页的HTS文档体系存在细粒度语义区分难题，如半导体晶圆加工状态等专业概念需要精确的层次化推理能力；同时十位编码的严格合规要求使得模型错误可能引发实际贸易中断。在数据集构建过程中，原始CROSS裁决文书具有法律文本特有的冗长性和结构异构性，需通过GPT-4o-mini进行信息提取与指令格式化转换。此外，数据分布不均衡现象显著——仅2,992个税则号覆盖18,731条裁决，且高频出现的税则号往往对应实践中易产生歧义的商品类别，这对模型的少样本学习与长尾泛化能力提出了更高要求。

常用场景

经典使用场景

在全球化贸易合规领域，HTS CROSS Rulings Dataset作为首个基于美国海关裁定系统的开源基准数据集，其经典应用场景聚焦于利用大语言模型进行商品关税代码的精确分类。该数据集通过18,731条具有法律效力的海关裁定记录，构建了从产品描述到10位协调关税代码的映射关系，为模型提供了学习复杂商品分类逻辑的权威样本。在实践层面，研究者通常将数据集转化为结构化提示模板，要求模型同时输出关税代码与推理路径，以此模拟真实贸易场景中海关官员的决策过程。

实际应用

在实际贸易场景中，数据集支撑的ATLAS模型已展现出显著应用价值。当全球邮政系统因关税分类错误导致物流停摆时，该技术能实现每秒千次级别的自动化代码分配，将合规成本降低至API模型的1/8。在半导体、汽车等高监管行业，模型支持本地化部署的特性保障了商业数据隐私，直接应用于跨境供应链的实时清关流程。美国海关裁定系统的权威性更使得分类结果具备法律参考价值，为进出口企业构建了从申报到风险评估的端到端解决方案。

衍生相关工作

该数据集的发布催生了关税分类领域的系列创新研究。基于其构建的ATLAS模型开创了LLM在贸易合规领域的专业化微调范式，后续工作则沿着多方向发展：一方面出现针对小型化模型的蒸馏研究，试图在8B参数规模实现部署效率与精度的平衡；另一方面涌现出检索增强方法，通过连接17,000页关税文档库提升长尾商品分类能力。更有研究探索对比学习与直接偏好优化等进阶技术，通过构建近似代码的决策边界优化模型推理质量。这些衍生工作共同推动了领域专用LLM在实时性、可解释性及多语言适配等方面的突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集