extended_amazon_2023_dataset
收藏Hugging Face2026-01-24 更新2026-01-25 收录
下载链接:
https://huggingface.co/datasets/google/extended_amazon_2023_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Amazon Reviews '23数据集的扩展版本,包含了多个类别的产品信息,如家用电器、服装鞋类和珠宝、体育和户外用品、视频游戏等。数据集经过了数据清洗和增强处理,特别是移除了没有图片的条目,并对重复图片的条目进行了处理。此外,数据集使用了LLM(大语言模型)生成了用户友好的标题、描述和特征。数据以jsonl格式提供,包含多个字段如数据来源、产品ID、图片描述等。
This dataset is an extended version of the Amazon Reviews '23 dataset, which covers product information across multiple categories including home appliances, clothing, footwear & jewelry, sports & outdoor goods, video games, and more. The dataset has undergone data cleaning and augmentation processing: specifically, entries without images have been removed, and those with duplicate images have been properly handled. Additionally, LLMs (Large Language Models) were employed to generate user-friendly titles, descriptions and product features for the dataset. The data is provided in JSONL format, containing multiple fields such as data source, product ID, image descriptions and others.
提供机构:
Google
创建时间:
2026-01-24
原始信息汇总
Extended Amazon 2023 Dataset 数据集概述
数据集基本信息
- 数据集名称:Extended Amazon 2023 Dataset
- 源数据集:Amazon Reviews ’23 Dataset (https://amazon-reviews-2023.github.io/)
- 语言:英语 (en)
- 许可证:CC BY 4.0 (cc-by-4.0)
- 数据格式:JSONL
- 规模类别:10M < n < 100M
- 数据条数:9,008,280 条
数据集内容与类别
本数据集是 Amazon Reviews ’23 Dataset 的扩展版本,主要包含以下四个类别的商品数据:
- Appliances
- Clothing_Shoes_and_Jewelry
- Sports_and_Outdoors
- Videos_Games
数据处理方法
- 数据清理:移除了没有图片的商品条目。
- 图像去重:将具有相同图片的商品视为同一图片进行处理。
- 数据增强:利用大语言模型(LLM)生成用户友好的商品标题和描述。生成时参考了原始标题、原始描述(若存在)、商品特征以及LLM生成的图片描述。
数据模式(Schema)
数据集采用JSONL格式,每条记录包含以下字段:
| 字段名 | 描述 |
|---|---|
data_source |
数据来源类别(例如:"Clothing, Shoes & Jewelry")。 |
product_id |
原始 Amazon Review 23 数据集中的产品ID,用于与原始数据关联。 |
image_description |
由LLM生成的图片描述。 |
title_to_display |
基于原始标题和图片描述,由LLM生成的商品标题。 |
description_to_display |
基于原始元数据和图片描述,由LLM生成的商品描述。 |
derived_features |
基于原始元数据和图片描述,由LLM生成的一组商品特征(字符串序列)。 |
数据集特征(Features)
根据 dataset_info 定义,数据集中每个样本包含以下特征:
data_source(string)product_id(string)image_description(string)title_to_display(string)description_to_display(string)derived_features(sequence: string)
应用标签
- jsonl
- text
- recommendation
- shopping
- image descriptions
- llm generated metadata
搜集汇总
数据集介绍

构建方式
在电子商务与推荐系统研究领域,数据质量对模型性能具有决定性影响。Extended Amazon 2023数据集的构建始于对原始Amazon Reviews '23数据集的清洗与增强,核心步骤包括剔除缺乏图像的商品条目,以确保视觉信息的完整性。针对图像重复问题,研究者将共享同一图片的不同商品变体(如尺寸差异)视为单一图像实体进行处理。随后,通过大型语言模型整合原始标题、描述、产品特征及自动生成的图像描述,生成了面向用户的友好商品标题与详细描述,从而构建出这一融合多模态信息的高质量数据集。
特点
该数据集在商品信息表征方面展现出显著特点,其核心在于通过大型语言模型生成了结构化的富文本元数据。数据集不仅包含原始的商品类别与标识符,更提供了由模型生成的图像描述、优化后的展示标题与商品描述,以及一系列提炼出的衍生特征。这些特征覆盖了材质、工艺、设计风格等多个维度,为深度理解商品属性提供了细粒度语义信息。数据涵盖家电、服饰鞋履、运动户外及电子游戏四大类别,规模近千万条,格式统一为JSONL,便于流式处理与大规模分析。
使用方法
该数据集适用于推荐系统、多模态学习及自然语言处理等多个研究方向。研究者可通过`product_id`字段与原始亚马逊评论数据集进行关联,实现文本评论与增强商品元数据的联合分析。在模型训练中,`image_description`与`title_to_display`等字段可作为多模态对齐任务的输入,用于训练视觉-语言联合表征模型。此外,`derived_features`提供的结构化标签可直接用于商品分类、特征提取或个性化推荐模型的构建。数据以JSONL格式存储,支持逐行读取,便于集成到主流机器学习框架中进行高效的数据加载与预处理。
背景与挑战
背景概述
随着电子商务的蓬勃发展,商品推荐系统成为提升用户体验与商业效益的关键技术。2023年发布的Extended Amazon 2023数据集,由研究团队基于Amazon Reviews '23数据集构建,旨在通过整合多模态信息,如商品图像与文本元数据,推动推荐算法与自然语言处理领域的交叉研究。该数据集覆盖家电、服饰鞋履、运动户外及视频游戏等多个类别,核心研究问题聚焦于如何利用大语言模型生成高质量的商品描述与特征,以增强推荐系统的准确性与可解释性,对个性化购物与智能信息检索产生了深远影响。
当前挑战
该数据集致力于解决商品推荐领域中的多模态信息融合挑战,即如何有效结合视觉图像与文本数据以提升推荐精度。在构建过程中,研究团队面临数据清洗与增强的复杂性,例如需剔除缺乏图像的商品条目,并处理同一商品因尺寸差异导致的图像重复问题。此外,利用大语言模型生成元数据时,需确保生成的标题、描述及特征既保持语义一致性,又能准确反映商品属性,这对模型的提示工程与输出质量控制提出了较高要求。
常用场景
经典使用场景
在电子商务与推荐系统领域,extended_amazon_2023_dataset 为多模态信息融合研究提供了经典场景。该数据集整合了商品图像描述、标题与文本元数据,通过大语言模型生成增强的显示内容,使得研究者能够探索视觉与文本特征的协同作用。典型应用包括训练跨模态检索模型,以提升商品搜索的准确性与用户体验,同时支持基于内容的推荐算法开发,优化个性化购物流程。
实际应用
在实际应用中,extended_amazon_2023_dataset 被广泛用于构建智能电商平台。企业可基于其多模态数据训练商品分类与搜索模型,实现更精准的产品匹配和个性化推荐。此外,该数据集支持生成式AI在商品描述自动创作中的应用,帮助商家优化商品展示内容,提升转化率,并为市场趋势分析提供数据支撑。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于其多模态特征开发的跨模态检索框架,显著提升了商品搜索性能;利用LLM生成元数据的研究,推动了文本与图像对齐模型的进步。此外,该数据集还激发了在推荐系统中融合视觉语义的算法创新,为后续大规模电商数据集的构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



