Studeni/AMAZON-Products-2023
收藏Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Studeni/AMAZON-Products-2023
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2023年在亚马逊上架的产品元数据,旨在用于语义搜索应用。数据集记录了117,243个产品的详细信息,包括产品标识、首次可用日期、标题、描述等,并使用text-embedding-3-small模型为产品标题和描述生成了嵌入。数据集适用于产品推荐和语义搜索等应用。
该数据集包含2023年在亚马逊上架的产品元数据,旨在用于语义搜索应用。数据集记录了117,243个产品的详细信息,包括产品标识、首次可用日期、标题、描述等,并使用text-embedding-3-small模型为产品标题和描述生成了嵌入。数据集适用于产品推荐和语义搜索等应用。
提供机构:
Studeni
原始信息汇总
数据集概述
名称: Amazon Products 2023
描述: 该数据集包含2023年上架的亚马逊产品元数据,适用于语义搜索应用,涵盖多种产品类别。
数据量:
- 行数: 117,243
- 列数: 15
语言: 英语
标签: 电子商务、产品、亚马逊
大小分类: 100K<n<1M
数据结构
产品分布:
| filename | product_count | |
|---|---|---|
| 0 | meta_Amazon_Fashion | 470 |
| 1 | meta_Appliances | 573 |
| 2 | meta_Arts_Crafts_and_Sewing | 2948 |
| 3 | meta_Automotive | 7161 |
| 4 | meta_Baby_Products | 526 |
| 5 | meta_Beauty_and_Personal_Care | 1402 |
| 6 | meta_Books | 2 |
| 7 | meta_CDs_and_Vinyl | 1319 |
| 8 | meta_Cell_Phones_and_Accessories | 5062 |
| 9 | meta_Clothing_Shoes_and_Jewelry | 41777 |
| 10 | meta_Digital_Music | 56 |
| 11 | meta_Electronics | 7681 |
| 12 | meta_Gift_Cards | 8 |
| 13 | meta_Grocery_and_Gourmet_Food | 96 |
| 14 | meta_Handmade_Products | 1018 |
| 15 | meta_Health_and_Household | 4760 |
| 16 | meta_Health_and_Personal_Care | 93 |
| 17 | meta_Home_and_Kitchen | 17326 |
| 18 | meta_Industrial_and_Scientific | 1216 |
| 19 | meta_Magazine_Subscriptions | 3 |
| 20 | meta_Musical_Instruments | 639 |
| 21 | meta_Office_Products | 3545 |
| 22 | meta_Patio_Lawn_and_Garden | 3075 |
| 23 | meta_Pet_Supplies | 2742 |
| 24 | meta_Software | 157 |
| 25 | meta_Sports_and_Outdoors | 6343 |
| 26 | meta_Tools_and_Home_Improvement | 4776 |
| 27 | meta_Toys_and_Games | 1367 |
| 28 | meta_Unknown | 541 |
| 29 | meta_Video_Games | 561 |
列信息:
- parent_asin (str): 产品唯一标识符。
- date_first_available (datetime64[ns]): 产品首次可用日期。
- title (str): 产品标题。
- description (str): 产品描述。
- filename (str): 产品元数据关联的文件名。
- main_category (str): 产品主类别。
- categories (List[str]): 产品子类别。
- store (str): 产品商店信息。
- average_rating (float64): 产品平均评分。
- rating_number (float64): 产品评分数量。
- price (float64): 产品价格。
- features (List[str]): 产品特性。
- details (str): 产品附加详情,JSON序列化字符串。
- embeddings (List[float64]): 使用text-embedding-3-small模型生成的嵌入。
- image (str): 产品图片URL。
缺失值情况:
- main_category: 24,805 缺失值
- store: 253 缺失值
- rating_number: 6 缺失值
- price: 35,869 缺失值
应用场景
- 语义搜索: 利用嵌入查找基于文本描述的相似产品。
- 产品推荐: 通过详细的产品元数据增强推荐系统。



