oshizo/HSClustering-ja

Name: oshizo/HSClustering-ja
Creator: oshizo
Published: 2024-06-23 15:34:38
License: 暂无描述

Hugging Face2024-06-23 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/oshizo/HSClustering-ja

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于嵌入模型学习和评估的聚类数据集。数据来源于日本海关的预先指示回答（品目分类），并经过整理后公开。数据集包含了‘一般的品名’和‘货物概要’的结合文本，以及对应的HS代码的‘部’作为标签。数据集在2024年6月23日进行了更新，删除了‘一般的品名’重复的数据。数据集被随机分割为训练集和测试集，且保持了标签的比例。

提供机构：

oshizo

原始信息汇总

数据集概述

数据集信息

特征:
- 税番: 类型为字符串
- text: 类型为字符串
- label: 类型为整数64位
分割:
- train:
  - 字节数: 1667475
  - 样本数: 2655
- test:
  - 字节数: 555604
  - 样本数: 886
下载大小: 928402字节
数据集大小: 2223079字节

配置

配置名称: default
- 数据文件:
  - train: data/train-*
  - test: data/test-*

任务类别

文本分类

语言

日语

数据处理

数据来源于税関の事前教示回答（品目分類）。
数据集根据利用規約公开。
2024/6/23时点下载的数据中，删除了重复的“一般的品名”数据。
text列由“一般的品名”和“貨物概要”合并而成。
label列对应HS代码的“部”。
“部”的信息来源于関税率表解說・分類例規页面的一览表。
数据在保持label比例的前提下，随机分为train和test。

分割详情

label	train	test
1	150	51
2	214	71
3	32	11
4	576	192
5	27	9
6	308	102
7	246	82
8	46	16
9	67	22
10	30	10
11	304	101
12	66	22
13	45	15
14	14	5
15	149	50
16	138	45
17	36	13
18	31	10
20	176	59

5,000+

优质数据集

54 个

任务类型

进入经典数据集

label	train	test
1	150	51
2	214	71
3	32	11
4	576	192
5	27	9
6	308	102
7	246	82
8	46	16
9	67	22
10	30	10
11	304	101
12	66	22
13	45	15
14	14	5
15	149	50
16	138	45
17	36	13
18	31	10
20	176	59

label	train	test
1	150	51
2	214	71
3	32	11
4	576	192
5	27	9
6	308	102
7	246	82
8	46	16
9	67	22
10	30	10
11	304	101
12	66	22
13	45	15
14	14	5
15	149	50
16	138	45
17	36	13
18	31	10
20	176	59

label	train	test
1	150	51
2	214	71
3	32	11
4	576	192
5	27	9
6	308	102
7	246	82
8	46	16
9	67	22
10	30	10
11	304	101
12	66	22
13	45	15
14	14	5
15	149	50
16	138	45
17	36	13
18	31	10
20	176	59