crossingminds/shopping-queries-image-dataset
收藏购物查询图像数据集(SQID 🦑)
简介
购物查询图像数据集(SQID)是一个包含超过190,000个产品图像信息的数据集。该数据集是Amazon购物查询数据集的扩展版本,包含大量来自真实亚马逊用户的商品搜索查询,以及最多40个潜在相关结果的列表和这些结果与搜索查询的相关性判断。
SQID数据集可以用于支持利用图像信息改进商品搜索的研究。研究人员可以使用此数据集训练多模态机器学习模型,这些模型在为给定搜索查询排名产品时可以考虑文本和视觉信息。
数据集
该数据集通过包括每个产品的图像信息和视觉嵌入以及相关查询的文本嵌入来扩展购物查询数据集(SQD),可用于基准产品排名。
产品采样
我们限制此数据集为SQD中small_version为1(任务1的简化版本),split为test(数据集的测试集),product_locale为us的子集。因此,该数据集包含164,900个product_id。
作为补充数据,我们还提供了在任务1的数据中至少出现在2个查询判断中的其他产品的数据,product_locale为us,共计27,139个产品,以进一步增加数据的覆盖范围,用于超出ESCI基准的额外应用。
图像URL抓取
我们从亚马逊网站抓取了156,545(95%的164,900个product_id)的image_url。缺少image_url的产品要么未能获取有效的商品页面(通常是亚马逊不再销售该产品),要么显示默认的“无图像可用”图像。
注意:446个产品的image_url是默认的数字视频图像,https://m.media-amazon.com/images/G/01/digital/video/web/Default_Background_Art_LTR._SX1080_FMjpg_.jpg,表示不存在特定产品的图像。
该数据集还包括一个补充文件,涵盖额外的27,139个product_id和image_url。
图像嵌入
我们使用OpenAI CLIP模型(具体为clip-vit-large-patch14)提取每个图像的嵌入,使用所有默认设置。
查询嵌入
对于SQD测试集中的每个查询和每个产品,我们使用相同的CLIP模型基于查询文本和产品标题提取文本嵌入。这些可以用于基准产品搜索方法,其中文本和图像共享相同的嵌入空间。
文件
data目录包含4个文件:
product_image_urls.parquet- 该文件包含数据集中所有
product_id的图像URL
- 该文件包含数据集中所有
products_features.parquet- 该文件包含数据集中所有
product_id的CLIP嵌入特征
- 该文件包含数据集中所有
queries_features.parquet- 该文件包含数据集中所有
querie_id的CLIP文本嵌入特征
- 该文件包含数据集中所有
supp_product_image_urls.parquet- 该文件包含测试集之外的额外产品的补充图像URL数据,以增加数据的覆盖范围
引用
使用此数据集时,请引用以下论文: <pre> Shopping Queries Image Dataset (SQID): An Image-Enriched ESCI Dataset for Exploring Multimodal Learning in Product Search, M. Al Ghossein, C.W. Chen, J. Tang </pre>
许可证
该数据集在MIT许可证下发布。



