HSCodeComp
收藏arXiv2025-10-22 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/AIDC-AI/HsCodeComp
下载链接
链接失效反馈官方服务:
资源简介:
HSCodeComp是一个真实且具有专家级水平的数据集,用于评估深度搜索代理在分层规则应用中的能力。该数据集由大型电子商务平台收集的真实世界数据构建,包含632个产品条目,涵盖27个独特的HS章节和32个不同的第一级类别。这些HS代码由多位电子商务领域专家严格标注,确保HSCodeComp具有专家级水平。准确预测精确的10位HS代码提出了重大挑战:代理必须执行多跳分层推理,同时处理包含缩写、语言变化或不完整信息的嘈杂但真实的产品描述。
HSCodeComp is a real-world, expert-level dataset developed to evaluate the capabilities of deep search agents in hierarchical rule application. This dataset is constructed from real-world data collected from large e-commerce platforms, containing 632 product entries spanning 27 unique HS chapters and 32 distinct first-level categories. These HS codes are strictly annotated by multiple e-commerce domain experts, ensuring that HSCodeComp meets expert-level standards. Accurately predicting precise 10-digit HS codes poses a substantial challenge: agents must perform multi-hop hierarchical reasoning while processing noisy yet authentic product descriptions that may include abbreviations, language variations, or incomplete information.
提供机构:
阿里巴巴国际数字商业
创建时间:
2025-10-22
原始信息汇总
HSCodeComp 数据集概述
数据集简介
HSCodeComp 是首个面向电子商务领域的真实专家级基准数据集,专门用于评估深度搜索代理在层次规则应用方面的能力。该数据集聚焦于海关商品编码预测任务,要求代理根据带有噪声的真实电商产品描述,准确预测10位协调制度编码。
核心特性
- 任务类型:层次规则应用(Level-3知识)
- 数据来源:大规模电子商务平台
- 标注质量:专家标注,标注者间一致性>98%
- 知识层级:第3级 - 层次规则应用
数据结构
输入格式
每个产品包含丰富信息:$x = (t, A, c, i, p, u, r)$,其中:
- $t$:产品标题
- $A = {(k_j, v_j)}_{j=1}^K$:产品属性集合
- $c$:电商平台定义的产品类别
- $p$:价格
- $u$:货币
输出格式
- HSCode:10位数字字符串 $mathcal{Y} subseteq {0,1,ldots,9}^{10}$
- 编码结构:
- 前2位:HS章节
- 前4位:HS标题
- 前6位:HS子标题
- 后4位(7-10位):国家特定编码
知识类型
- 来自官方分类系统的层次关税规则
- 指定如何正确应用关税规则的人工编写决策规则
- 包含历史HSCode分类决策的官方海关裁决数据库
数据集统计
| 指标 | 数值 |
|---|---|
| 总产品数 | 632个专家标注条目 |
| HS章节数 | 27个章节 |
| 一级类别数 | 32个类别 |
| 测试模型 | 14个基础模型,6个开源代理,3个闭源系统 |
性能基准
- 最佳AI代理:SmolAgent + GPT-5 VLM,准确率46.8%
- 人类专家:准确率95.0%
- 评估指标:2位、4位、6位、8位和10位精确匹配准确率
关键发现
- 推理时间扩展策略无法提升性能
- 更多思考导致性能下降
- 当前代理难以有效利用层次决策规则
许可证
Apache-2.0许可证
免责声明
数据集基于公开可用的产品数据源构建,已移除产品图片和URL,但仍可能存在版权问题或不适当内容。
搜集汇总
数据集介绍

构建方式
在电子商务领域中,准确分类产品对全球供应链效率至关重要,HSCodeComp数据集通过严谨的流程构建而成,确保其多样性和专业性。数据源自大规模电商平台,涵盖632个产品条目,覆盖27个HS章节和32个一级类别,每个产品均包含嘈杂但真实的描述信息。构建过程包括数据收集与多样性控制、人类专家注释和验证三个关键步骤,通过语义冗余过滤去除重复产品,并由多位电商领域专家严格注释10位协调制度代码,确保数据集达到专家级别。
特点
HSCodeComp数据集在电子商务规则应用领域展现出独特优势,其核心特点在于模拟真实世界挑战,产品描述包含缩写、语言变体或不完整信息,要求智能体进行多跳层次推理。数据集涵盖广泛的产品类别,从消费电子到服装配件,每个条目均关联复杂的关税规则,这些规则具有模糊边界和隐含逻辑关系,例如例外条款和跨类别依赖。此外,数据集通过人类专家验证流程确保标注质量,仅2%的异议率证明了其高度一致性,为评估智能体在层次规则应用中的能力提供了可靠基准。
使用方法
在电子商务智能体研究中,HSCodeComp数据集主要用于评估深度搜索代理在层次规则应用中的性能。使用方法涉及将产品描述作为输入,要求模型预测完整的10位协调制度代码,输出需符合官方HS分类法的有效路径。评估采用精确匹配指标,比较模型输出与人类标注的真实代码,重点关注10位代码的准确率,同时报告2位、4位、6位和8位级别的性能以提供全面洞察。研究过程中,代理系统可借助搜索工具访问关税规则和海关裁决数据库,但需避免过度推理,以优化工具调用效率。
背景与挑战
背景概述
HSCodeComp数据集由阿里巴巴国际数字商业团队于2025年推出,旨在填补深度搜索代理在层次化规则应用能力评估方面的空白。该数据集聚焦于电子商务领域的关税规则应用,核心研究问题在于如何通过复杂关税规则对含噪声的真实产品描述进行精确的10位协调制度编码预测。作为首个专家级电子商务基准,其构建基于大规模电商平台真实数据,涵盖632个产品条目和27个HS章节,所有编码均由多位领域专家严格标注,对推动智能代理在规则推理领域的发展具有里程碑意义。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决层次化关税规则中模糊边界与隐含逻辑关系带来的分类难题,例如例外条款与跨类别关联的复杂推理;在构建过程中,需克服真实产品描述中存在的语言变异、缩写及信息不完整等噪声干扰,同时确保标注过程中多位专家决策的一致性。实验表明当前最优代理系统仅达到46.8%的准确率,远低于人类专家95.0%的水平,凸显出现有系统在规则应用与领域知识融合方面的局限性。
常用场景
经典使用场景
在电子商务与国际贸易领域,HSCodeComp数据集被广泛用于评估深度搜索代理在分层规则应用中的性能。该数据集通过模拟真实世界中的产品分类任务,要求代理依据世界海关组织制定的协调制度代码规则,对含有噪声的产品描述进行精确的10位HSCode预测。这一过程涉及多跳层次推理,能够有效检验代理在模糊规则边界和隐含逻辑关系下的决策能力,为智能代理在复杂规则环境中的表现提供了标准化测试平台。
实际应用
该数据集在跨境电子商务、海关清关及供应链管理等领域具有显著实用价值。通过精确预测产品HSCode,能够优化关税计算、加速货物通关流程,并提升全球贸易效率。实际应用中,基于HSCodeComp训练的代理系统可集成至电商平台,自动化处理海量商品分类任务,减少人工干预成本,同时降低因分类错误导致的合规风险,为数字化贸易生态提供可靠的技术支撑。
衍生相关工作
HSCodeComp的发布催生了一系列围绕层次规则应用的创新研究。例如,基于该数据集的实验揭示了测试时扩展策略在规则推理任务中的失效现象,促进了新型代理架构的探索。后续工作如SmolAgent等开源框架通过融合多模态信息与工具调用机制,显著提升了规则应用的准确性。这些衍生研究不仅深化了对代理认知局限的理解,还推动了法律、医疗等领域规则密集型任务的基准建设与算法革新。
以上内容由遇见数据集搜集并总结生成



