oshizo/HSClustering-ja
收藏Hugging Face2024-06-23 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/oshizo/HSClustering-ja
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于嵌入模型学习和评估的聚类数据集。数据来源于日本海关的预先指示回答(品目分类),并经过整理后公开。数据集包含了‘一般的品名’和‘货物概要’的结合文本,以及对应的HS代码的‘部’作为标签。数据集在2024年6月23日进行了更新,删除了‘一般的品名’重复的数据。数据集被随机分割为训练集和测试集,且保持了标签的比例。
该数据集是一个用于嵌入模型学习和评估的聚类数据集。数据来源于日本海关的预先指示回答(品目分类),并经过整理后公开。数据集包含了‘一般的品名’和‘货物概要’的结合文本,以及对应的HS代码的‘部’作为标签。数据集在2024年6月23日进行了更新,删除了‘一般的品名’重复的数据。数据集被随机分割为训练集和测试集,且保持了标签的比例。
提供机构:
oshizo
原始信息汇总
数据集概述
数据集信息
-
特征:
- 税番: 类型为字符串
- text: 类型为字符串
- label: 类型为整数64位
-
分割:
- train:
- 字节数: 1667475
- 样本数: 2655
- test:
- 字节数: 555604
- 样本数: 886
- train:
-
下载大小: 928402字节
-
数据集大小: 2223079字节
配置
- 配置名称: default
- 数据文件:
- train: data/train-*
- test: data/test-*
- 数据文件:
任务类别
- 文本分类
语言
- 日语
数据处理
- 数据来源于税関の事前教示回答(品目分類)。
- 数据集根据利用規約公开。
- 2024/6/23时点下载的数据中,删除了重复的“一般的品名”数据。
- text列由“一般的品名”和“貨物概要”合并而成。
- label列对应HS代码的“部”。
- “部”的信息来源于関税率表解說・分類例規页面的一览表。
- 数据在保持label比例的前提下,随机分为train和test。
分割详情
| label | train | test |
|---|---|---|
| 1 | 150 | 51 |
| 2 | 214 | 71 |
| 3 | 32 | 11 |
| 4 | 576 | 192 |
| 5 | 27 | 9 |
| 6 | 308 | 102 |
| 7 | 246 | 82 |
| 8 | 46 | 16 |
| 9 | 67 | 22 |
| 10 | 30 | 10 |
| 11 | 304 | 101 |
| 12 | 66 | 22 |
| 13 | 45 | 15 |
| 14 | 14 | 5 |
| 15 | 149 | 50 |
| 16 | 138 | 45 |
| 17 | 36 | 13 |
| 18 | 31 | 10 |
| 20 | 176 | 59 |



