five

Studeni/AMAZON-Products-2023

收藏
Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Studeni/AMAZON-Products-2023
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2023年在亚马逊上架的产品元数据,旨在用于语义搜索应用。数据集记录了117,243个产品的详细信息,包括产品标识、首次可用日期、标题、描述等,并使用text-embedding-3-small模型为产品标题和描述生成了嵌入。数据集适用于产品推荐和语义搜索等应用。

该数据集包含2023年在亚马逊上架的产品元数据,旨在用于语义搜索应用。数据集记录了117,243个产品的详细信息,包括产品标识、首次可用日期、标题、描述等,并使用text-embedding-3-small模型为产品标题和描述生成了嵌入。数据集适用于产品推荐和语义搜索等应用。
提供机构:
Studeni
原始信息汇总

数据集概述

名称: Amazon Products 2023

描述: 该数据集包含2023年上架的亚马逊产品元数据,适用于语义搜索应用,涵盖多种产品类别。

数据量:

  • 行数: 117,243
  • 列数: 15

语言: 英语

标签: 电子商务、产品、亚马逊

大小分类: 100K<n<1M

数据结构

产品分布:

filename product_count
0 meta_Amazon_Fashion 470
1 meta_Appliances 573
2 meta_Arts_Crafts_and_Sewing 2948
3 meta_Automotive 7161
4 meta_Baby_Products 526
5 meta_Beauty_and_Personal_Care 1402
6 meta_Books 2
7 meta_CDs_and_Vinyl 1319
8 meta_Cell_Phones_and_Accessories 5062
9 meta_Clothing_Shoes_and_Jewelry 41777
10 meta_Digital_Music 56
11 meta_Electronics 7681
12 meta_Gift_Cards 8
13 meta_Grocery_and_Gourmet_Food 96
14 meta_Handmade_Products 1018
15 meta_Health_and_Household 4760
16 meta_Health_and_Personal_Care 93
17 meta_Home_and_Kitchen 17326
18 meta_Industrial_and_Scientific 1216
19 meta_Magazine_Subscriptions 3
20 meta_Musical_Instruments 639
21 meta_Office_Products 3545
22 meta_Patio_Lawn_and_Garden 3075
23 meta_Pet_Supplies 2742
24 meta_Software 157
25 meta_Sports_and_Outdoors 6343
26 meta_Tools_and_Home_Improvement 4776
27 meta_Toys_and_Games 1367
28 meta_Unknown 541
29 meta_Video_Games 561

列信息:

  • parent_asin (str): 产品唯一标识符。
  • date_first_available (datetime64[ns]): 产品首次可用日期。
  • title (str): 产品标题。
  • description (str): 产品描述。
  • filename (str): 产品元数据关联的文件名。
  • main_category (str): 产品主类别。
  • categories (List[str]): 产品子类别。
  • store (str): 产品商店信息。
  • average_rating (float64): 产品平均评分。
  • rating_number (float64): 产品评分数量。
  • price (float64): 产品价格。
  • features (List[str]): 产品特性。
  • details (str): 产品附加详情,JSON序列化字符串。
  • embeddings (List[float64]): 使用text-embedding-3-small模型生成的嵌入。
  • image (str): 产品图片URL。

缺失值情况:

  • main_category: 24,805 缺失值
  • store: 253 缺失值
  • rating_number: 6 缺失值
  • price: 35,869 缺失值

应用场景

  • 语义搜索: 利用嵌入查找基于文本描述的相似产品。
  • 产品推荐: 通过详细的产品元数据增强推荐系统。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作