hsclassify-micro-dataset
收藏Hugging Face2026-02-24 更新2026-02-25 收录
下载链接:
https://huggingface.co/datasets/Mead0w1ark/hsclassify-micro-dataset
下载链接
链接失效反馈官方服务:
资源简介:
HSClassify微训练数据集支持海关和贸易工作流程中的多语言HS代码分类。该数据集结合了HS命名记录(6位级别和层次结构上下文)、映射到HS代码的合成产品描述以及用于用户界面和潜在空间分析的人类可读章节/类别标签。数据集包含以下文件:训练数据索引CSV、HS表格快照、HS代码参考JSON和来源归属文件。数据字段包括产品描述文本、6位HS代码目标、章节描述文本、章节ID、标准化人类可读类别标签、HS描述和语言代码。核心HS命名内容来源于`datasets/harmonized-system`项目,上游数据许可证为ODC公共领域奉献和许可证(PDDL)v1.0。项目添加的合成文本和标准化标签在本项目的MIT许可证下发布。当前版本的语言平衡偏向英语,合成文本模式可能未覆盖所有商业短语边缘情况,此数据集仅供研究/原型设计使用,不构成法律海关建议。
The HSClassify micro-training dataset enables multilingual HS code classification for customs and trade workflows. This dataset integrates HS nomenclature records (6-digit level and hierarchical context), synthetic product descriptions mapped to HS codes, and human-readable chapter/category labels for user interface and latent space analysis. The dataset contains the following files: training data index CSV, HS table snapshot, HS code reference JSON, and source attribution file. Its data fields include product description text, 6-digit HS code target, chapter description text, chapter ID, standardized human-readable category labels, HS descriptions, and language codes. The core HS nomenclature content is sourced from the `datasets/harmonized-system` project, with the upstream data license being the ODC Public Domain Dedication and License (PDDL) v1.0. The synthetic text and standardized labels added for this project are released under the MIT license of this work. The current version has a linguistic bias toward English, and the synthetic text patterns may not cover all edge cases of commercial phrases. This dataset is for research and prototyping use only and does not constitute legal customs advice.
创建时间:
2026-02-19
搜集汇总
数据集介绍
构建方式
在海关与贸易流程的数字化背景下,HSClassify Micro Training Dataset 的构建采用了多源数据融合的策略。该数据集以世界海关组织(WCO)的《协调制度》官方术语记录为核心基础,通过整合联合国商品贸易统计数据库(UN Comtrade)的提取数据,确保了编码体系与分类层级的权威性与时效性。在此基础上,研究团队为每个六位HS编码生成了对应的合成产品描述文本,并补充了易于理解的人类可读章节标签与类别名称,从而构建了一个兼具结构化编码信息与自然语言描述的多语言训练样本集合。
特点
本数据集的核心特点在于其专为多语言HS编码分类任务而设计,覆盖了英语、泰语、越南语和中文四种语言,尽管当前版本在语言分布上向英语有所倾斜。数据条目不仅包含用于分类的目标六位HS编码,还提供了完整的章节代码、章节名称以及对应的HS描述文本,为模型训练提供了丰富的层次化上下文信息。这种结构使得数据集不仅能支持直接的文本到编码的分类,还能辅助进行潜在空间分析或用户界面中的类别解释,在海关自动化与贸易流程优化领域具有较高的实用价值。
使用方法
使用该数据集时,研究人员或开发者可通过加载 `training_data_indexed.csv` 文件获取主要的训练数据,其中 `text` 字段作为模型输入特征,`hs_code` 字段作为多分类任务的目标标签。配套的 `harmonized-system.csv` 与 `hs_codes_reference.json` 文件提供了完整的HS制度参考,可用于数据验证、索引构建或应用逻辑集成。该数据集适用于训练和评估跨语言文本分类模型,尤其专注于产品描述到海关税则号的映射任务,但需注意其合成文本可能未覆盖所有商业表述边界情况,建议用于研究或原型开发,而非替代正式的海关法律建议。
背景与挑战
背景概述
HSClassify微训练数据集于近期发布,旨在支持海关与贸易流程中的多语言协调制度编码分类研究。该数据集由相关开源项目团队构建,核心研究问题聚焦于如何利用自然语言处理技术,对多语言商品描述文本进行精准的HS编码自动归类,以提升跨境贸易中的报关效率与准确性。其整合了世界海关组织的官方HS术语记录、合成生成的商品描述文本以及人工标注的章节标签,为探索编码分类的潜在语义空间提供了结构化资源,对推动贸易数字化与智能海关系统的发展具有积极意义。
当前挑战
该数据集致力于解决多语言商品文本的HS编码自动分类问题,其核心挑战在于如何克服不同语言间商品描述的语义差异与表述多样性,实现跨语言的统一精准编码映射。在构建过程中,研究人员面临合成文本生成需覆盖真实商业场景的复杂表述、平衡英语与其他语种数据以缓解语言偏差,以及确保合成数据模式能够有效泛化至实际边缘案例等多重工程与语言学挑战。
常用场景
经典使用场景
在海关与国际贸易领域,商品归类是核心业务流程,HSClassify Micro Training Dataset为多语言文本分类任务提供了关键支持。该数据集通过整合协调制度编码及其层级背景,结合合成产品描述与可读章节标签,广泛应用于训练机器学习模型以自动识别商品描述对应的HS编码。研究人员利用其多语言文本与结构化编码的映射关系,构建分类器,优化海关申报、贸易合规中的自动化归类流程,显著提升了处理效率与准确性。
解决学术问题
该数据集有效应对了多语言环境下商品文本分类的学术挑战,解决了传统方法因语言差异和术语复杂性导致的归类不准问题。通过提供统一的HS编码框架与多语言描述,它支持跨语言表征学习、细粒度分类模型评估,以及潜在空间分析研究。其意义在于为贸易领域的自然语言处理研究提供了标准化基准,促进了算法在真实多语言场景中的泛化能力与鲁棒性提升,推动了智能化海关系统的学术进展。
衍生相关工作
基于该数据集,衍生了一系列经典研究工作,包括多语言文本嵌入模型的优化、基于层级结构的HS编码分类算法开发,以及合成数据增强技术在贸易领域的应用探索。研究人员利用其结构化参考数据,构建了端到端的归类流水线,并结合潜在空间分析技术,深入探究商品描述与编码之间的语义关联。这些工作不仅丰富了计算语言学在专业领域的实践,也为后续更大型、更平衡的多语言数据集构建提供了方法论基础。
以上内容由遇见数据集搜集并总结生成



