Shopping Queries Image Dataset (SQID)
收藏github2024-05-04 更新2024-05-31 收录
下载链接:
https://github.com/Crossing-Minds/shopping-queries-image-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Shopping Queries Image Dataset (SQID) 是一个包含超过190,000个产品图像信息的数据集。它是Amazon Shopping Queries Dataset的增强版本,包含了来自真实Amazon用户的众多产品搜索查询,以及最多40个可能相关的结果和它们与搜索查询的相关性判断。该数据集可以用于支持利用图像信息改进产品搜索的研究,研究人员可以使用这个数据集来训练能够同时考虑文本和视觉信息的多模态机器学习模型,以对给定搜索查询的产品进行排名。
The Shopping Queries Image Dataset (SQID) is a comprehensive dataset containing information on over 190,000 product images. It serves as an enhanced version of the Amazon Shopping Queries Dataset, incorporating a multitude of product search queries from actual Amazon users, along with up to 40 potentially relevant results and their relevance judgments to the search queries. This dataset is instrumental in supporting research aimed at improving product search through the utilization of image information. Researchers can leverage this dataset to train multimodal machine learning models that consider both textual and visual information to rank products for given search queries.
创建时间:
2024-05-03
原始信息汇总
Shopping Queries Image Dataset (SQID) 概述
数据集简介
SQID(Shopping Queries Image Dataset)是一个包含超过190,000个产品图像信息的数据集。该数据集是对Amazon Shopping Queries Dataset的扩展,原数据集包含大量真实亚马逊用户的商品搜索查询,以及最多40个潜在相关结果和相关性判断。
数据集内容
SQID通过添加图像信息和视觉嵌入,扩展了原始的Shopping Queries Dataset (SQD)。此外,还包括了查询文本的嵌入,用于基准产品排名的基准测试。
产品采样
本数据集限制在SQD的一个子集,其中small_version为1(数据集的简化版本,用于任务1),split为test(数据集的测试集),product_locale为us。因此,本数据集包含164,900个product_id。
作为补充数据,还提供了任务1数据中至少出现在2个查询判断中的其他产品的数据,product_locale为us,共计27,139个产品,以进一步增加数据覆盖范围,支持超出ESCI基准的其他应用。
图像URL抓取
从亚马逊网站抓取了156,545个(约95%的164,900个product_id)image_url。缺少image_url的产品要么无法获取有效的产品页面(通常是因为亚马逊不再销售该产品),要么显示默认的“无图像可用”图像。
文件结构
数据集包含以下四个文件:
product_image_urls.csv:包含数据集中所有product_id的图像URL。product_features.parquet:包含数据集中product_id的CLIP嵌入特征。query_features.parquet:包含数据集中查询的CLIP文本嵌入特征。supp_product_image_urls.csv:包含测试集外额外产品的图像URL,增加数据覆盖范围。
嵌入提取
使用OpenAI CLIP模型(clip-vit-large-patch14)提取图像和文本嵌入。
搜集汇总
数据集介绍

构建方式
Shopping Queries Image Dataset (SQID) 是在 Amazon Shopping Queries Dataset 的基础上构建的,专门为产品搜索中的多模态学习研究而设计。该数据集通过从亚马逊网站抓取了156,545个产品的图片URL,并使用OpenAI的CLIP模型提取了图像和文本嵌入。数据集的构建过程中,选择了Amazon Shopping Queries Dataset中`small_version`为1、`split`为'test'且`product_locale`为'us'的子集,共计164,900个产品。此外,还提供了27,139个额外产品的补充数据,以增强数据集的覆盖范围。
特点
SQID 数据集的主要特点在于其丰富的图像信息和多模态嵌入,能够支持研究人员在产品搜索中结合文本和视觉信息进行模型训练。数据集包含了产品的图像URL、图像嵌入和文本嵌入,这些嵌入均通过OpenAI的CLIP模型生成,确保了图像和文本在同一嵌入空间中的对齐。此外,数据集还提供了基准产品排名的文本和图像嵌入,便于研究人员进行多模态学习的实验和比较。
使用方法
研究人员可以使用SQID数据集来训练和评估多模态机器学习模型,特别是在产品搜索领域。数据集提供了图像URL、图像嵌入和文本嵌入,研究人员可以通过这些数据进行模型的训练和测试。数据集中的`product_image_urls.csv`文件包含了所有产品的图像URL,`product_features.parquet`和`query_features.parquet`文件分别包含了产品和查询的CLIP嵌入。此外,数据集还提供了Python代码片段,帮助用户使用HuggingFace或Replicate平台提取CLIP嵌入。
背景与挑战
背景概述
购物查询图像数据集(Shopping Queries Image Dataset,SQID)是由Crossing Minds团队开发的一个包含超过19万件商品图像信息的数据集。该数据集是基于Amazon购物查询数据集(Amazon Shopping Queries Dataset)的扩展版本,旨在通过引入图像信息来增强多模态学习在产品搜索中的应用。SQID的核心研究问题是如何利用图像和文本信息来提升产品搜索的准确性和用户体验。该数据集的创建不仅丰富了现有的产品搜索研究资源,还为多模态机器学习模型的训练提供了新的可能性,特别是在结合文本和视觉信息进行产品排序方面。
当前挑战
SQID数据集在构建过程中面临了多个挑战。首先,图像URL的抓取过程复杂,尽管成功抓取了95%的商品图像,但仍有部分商品因无法获取有效页面或显示默认图像而缺失图像信息。其次,图像和文本嵌入的提取依赖于OpenAI的CLIP模型,这要求模型在处理大规模数据时保持高效和准确。此外,数据集的扩展性也是一个挑战,如何在保持数据质量的同时增加数据覆盖范围,以支持更广泛的应用场景,是该数据集未来发展的重要方向。
常用场景
经典使用场景
购物查询图像数据集(SQID)主要用于支持基于图像信息改进产品搜索的研究。该数据集通过结合文本和视觉信息,为研究人员提供了训练多模态机器学习模型的基础。具体而言,SQID可用于开发和评估能够同时考虑文本查询和产品图像的排序模型,从而提升产品搜索的准确性和用户体验。
解决学术问题
SQID数据集解决了在产品搜索中如何有效整合文本和视觉信息这一关键学术问题。通过提供丰富的图像和文本嵌入,该数据集使得研究人员能够探索多模态学习在产品搜索中的应用,从而推动了多模态机器学习模型的发展。这一研究不仅提升了搜索算法的性能,还为跨模态信息检索提供了新的研究方向。
衍生相关工作
基于SQID数据集,许多研究工作得以展开,特别是在多模态学习领域。例如,研究人员利用该数据集开发了新的图像和文本嵌入方法,进一步提升了多模态模型的性能。此外,SQID还激发了在跨模态检索、图像生成和文本到图像转换等方向的研究,推动了多模态学习技术的广泛应用。
以上内容由遇见数据集搜集并总结生成



