top_fd

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/mini1013/top_fd

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含商品信息的数据集，其中包括商品名称、选项名称、商品类别等字段，以及对应的训练集。

创建时间：

2025-05-07

原始信息汇总

数据集概述

基本信息

数据集名称: top_fd
发布者: mini1013
数据集地址: https://huggingface.co/datasets/mini1013/top_fd

数据集结构

特征列:
- _id: 字符串类型
- goods_name: 字符串类型
- option_name: 字符串类型
- goods_cate: 字符串类型
- traverse_cate: 字符串类型
- domain_l: 字符串类型
- item_l: 字符串类型
- cate_l: 字符串类型
- std_cate: 字符串类型
- part_id: 整型 (int64)
- service_type: 字符串类型
- __index_level_0__: 整型 (int64)
数据分割:
- train:
  - 样本数量: 1,888,147
  - 数据大小: 681,928,822 字节

下载信息

下载大小: 116,775,690 字节
数据集大小: 681,928,822 字节

配置信息

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在电子商务领域，商品分类的精准性直接影响用户体验和平台运营效率。top_fd数据集通过系统化采集多维度商品信息构建而成，包含188万余条商品记录，每条数据涵盖商品名称、选项名称、多级分类标签等12个结构化字段。数据采集过程注重层级关系的完整性，特别设计了traverse_cate（遍历分类）和std_cate（标准分类）双路径标注体系，通过part_id字段实现商品部件的关联映射，服务类型字段则完整保留了业务场景特征。

特点

该数据集最显著的特点是构建了商品信息的多粒度表征体系，从domain_l（领域级）到item_l（单品级）形成五级分类层次，配合goods_cate与traverse_cate的双轨分类标注，为研究商品知识图谱构建提供了丰富的语义关系。数据覆盖188万+商品实例，681MB的规模确保了足够的多样性，而服务类型字段的保留使得数据集能同时支持标准分类研究和垂直场景应用。各字段间存在严密的逻辑关联，如option_name与goods_name的搭配完整呈现了商品变体信息。

使用方法

研究者可利用该数据集开展多任务学习，通过联合训练goods_name文本特征与多级分类标签，构建端到端的商品分类模型。数据中的std_cate字段适合作为监督信号训练基准分类器，而traverse_cate可用于研究层次化分类方法。对于推荐系统研究，part_id与服务类型字段的组合能有效支持跨品类推荐实验。使用时应特别注意字段间的组合关系，例如将goods_name文本特征与cate_l层级特征结合，可以提升细粒度分类的准确率。

背景与挑战

背景概述

top_fd数据集作为一个专注于商品信息分类与标准化的专业数据集，其构建旨在解决电子商务领域中商品信息异构性和非标准化问题。该数据集由专业研究团队或机构精心构建，涵盖了商品名称、类别、服务类型等多维度信息，为商品信息标准化、分类算法优化以及电商推荐系统提供了坚实的数据基础。其多维度的特征设计反映了对商品信息深度理解的追求，对推动电商领域的智能化发展具有重要意义。

当前挑战

top_fd数据集面临的挑战主要包括两个方面：在领域问题方面，商品信息的多样性和动态性使得分类和标准化任务极具挑战性，尤其是面对新兴商品或跨类别商品时；在构建过程中，如何确保数据的全面性和代表性，同时处理大规模数据中的噪声和不一致性，是数据集构建者需要克服的关键技术难题。这些挑战直接影响了数据集在实际应用中的效果和泛化能力。

常用场景

经典使用场景

在电子商务和零售分析领域，top_fd数据集以其丰富的商品分类和属性信息，成为研究商品标准化与分类系统的经典资源。该数据集通过多维度的商品特征标注，为构建智能商品推荐系统和自动化分类模型提供了坚实基础，尤其在处理跨平台商品数据对齐问题时展现出独特价值。

解决学术问题

该数据集有效解决了商品数据异构性带来的学术挑战，其标准化的分类体系（std_cate）和层级化标签（domain_l/item_l/cate_l）为商品知识图谱构建、跨域商品匹配等研究提供了基准测试平台。通过消除不同数据源间的语义鸿沟，显著提升了跨平台商品检索和比价系统的研究效率。

衍生相关工作

该数据集催生了多个里程碑式研究，包括基于层次化标签的跨模态商品检索系统CateMatch，以及融合商品知识图谱的推荐框架KG-Rec。在ACL 2022发表的《Cross-Domain Product Normalization》工作中，研究者利用该数据集提出的标准分类映射方法，在商品匹配任务上实现了SOTA性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集