five

oshizo/HSClustering-ja

收藏
Hugging Face2024-06-23 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/oshizo/HSClustering-ja
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于嵌入模型学习和评估的聚类数据集。数据来源于日本海关的预先指示回答(品目分类),并经过整理后公开。数据集包含了‘一般的品名’和‘货物概要’的结合文本,以及对应的HS代码的‘部’作为标签。数据集在2024年6月23日进行了更新,删除了‘一般的品名’重复的数据。数据集被随机分割为训练集和测试集,且保持了标签的比例。

该数据集是一个用于嵌入模型学习和评估的聚类数据集。数据来源于日本海关的预先指示回答(品目分类),并经过整理后公开。数据集包含了‘一般的品名’和‘货物概要’的结合文本,以及对应的HS代码的‘部’作为标签。数据集在2024年6月23日进行了更新,删除了‘一般的品名’重复的数据。数据集被随机分割为训练集和测试集,且保持了标签的比例。
提供机构:
oshizo
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • 税番: 类型为字符串
    • text: 类型为字符串
    • label: 类型为整数64位
  • 分割:

    • train:
      • 字节数: 1667475
      • 样本数: 2655
    • test:
      • 字节数: 555604
      • 样本数: 886
  • 下载大小: 928402字节

  • 数据集大小: 2223079字节

配置

  • 配置名称: default
    • 数据文件:
      • train: data/train-*
      • test: data/test-*

任务类别

  • 文本分类

语言

  • 日语

数据处理

分割详情

label train test
1 150 51
2 214 71
3 32 11
4 576 192
5 27 9
6 308 102
7 246 82
8 46 16
9 67 22
10 30 10
11 304 101
12 66 22
13 45 15
14 14 5
15 149 50
16 138 45
17 36 13
18 31 10
20 176 59
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作