crossingminds/shopping-queries-image-dataset

Name: crossingminds/shopping-queries-image-dataset
Creator: crossingminds
Published: 2024-09-04 20:38:39
License: 暂无描述

Hugging Face2024-09-04 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/crossingminds/shopping-queries-image-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Shopping Queries Image Dataset (SQID) 是一个包含超过190,000个产品图像信息的数据集，它是Amazon Shopping Queries Dataset的增强版本，增加了图像信息和视觉嵌入。该数据集主要用于支持通过利用图像信息来改进产品搜索的研究。数据集包括产品图像URL、产品特征、查询特征以及补充产品图像URL等文件。此外，数据集还提供了使用OpenAI CLIP模型提取的图像和文本嵌入特征，这些特征可以用于基准产品搜索方法的训练和评估。

The Shopping Queries Image Dataset (SQID) is a dataset that includes image information for over 190,000 products. This dataset is an augmented version of the Amazon Shopping Queries Dataset, which includes a large number of product search queries from real Amazon users, along with a list of up to 40 potentially relevant results and judgments of how relevant they are to the search query. The image-enriched SQID dataset can be used to support research on improving product search by leveraging image information. Researchers can use this dataset to train multimodal machine learning models that can take into account both textual and visual information when ranking products for a given search query.

提供机构：

crossingminds

原始信息汇总

购物查询图像数据集（SQID 🦑）

简介

购物查询图像数据集（SQID）是一个包含超过190,000个产品图像信息的数据集。该数据集是Amazon购物查询数据集的扩展版本，包含大量来自真实亚马逊用户的商品搜索查询，以及最多40个潜在相关结果的列表和这些结果与搜索查询的相关性判断。

SQID数据集可以用于支持利用图像信息改进商品搜索的研究。研究人员可以使用此数据集训练多模态机器学习模型，这些模型在为给定搜索查询排名产品时可以考虑文本和视觉信息。

数据集

该数据集通过包括每个产品的图像信息和视觉嵌入以及相关查询的文本嵌入来扩展购物查询数据集（SQD），可用于基准产品排名。

产品采样

我们限制此数据集为SQD中small_version为1（任务1的简化版本），split为test（数据集的测试集），product_locale为us的子集。因此，该数据集包含164,900个product_id。

作为补充数据，我们还提供了在任务1的数据中至少出现在2个查询判断中的其他产品的数据，product_locale为us，共计27,139个产品，以进一步增加数据的覆盖范围，用于超出ESCI基准的额外应用。

图像URL抓取

我们从亚马逊网站抓取了156,545（95%的164,900个product_id）的image_url。缺少image_url的产品要么未能获取有效的商品页面（通常是亚马逊不再销售该产品），要么显示默认的“无图像可用”图像。

注意：446个产品的image_url是默认的数字视频图像，https://m.media-amazon.com/images/G/01/digital/video/web/Default_Background_Art_LTR._SX1080_FMjpg_.jpg，表示不存在特定产品的图像。

该数据集还包括一个补充文件，涵盖额外的27,139个product_id和image_url。

图像嵌入

我们使用OpenAI CLIP模型（具体为clip-vit-large-patch14）提取每个图像的嵌入，使用所有默认设置。

查询嵌入

对于SQD测试集中的每个查询和每个产品，我们使用相同的CLIP模型基于查询文本和产品标题提取文本嵌入。这些可以用于基准产品搜索方法，其中文本和图像共享相同的嵌入空间。

文件

data目录包含4个文件：

product_image_urls.parquet
- 该文件包含数据集中所有product_id的图像URL
products_features.parquet
- 该文件包含数据集中所有product_id的CLIP嵌入特征
queries_features.parquet
- 该文件包含数据集中所有querie_id的CLIP文本嵌入特征
supp_product_image_urls.parquet
- 该文件包含测试集之外的额外产品的补充图像URL数据，以增加数据的覆盖范围

引用

使用此数据集时，请引用以下论文： <pre> Shopping Queries Image Dataset (SQID): An Image-Enriched ESCI Dataset for Exploring Multimodal Learning in Product Search, M. Al Ghossein, C.W. Chen, J. Tang </pre>

许可证

该数据集在MIT许可证下发布。

5,000+

优质数据集

54 个

任务类型

进入经典数据集