marqo-GS-10M

Hugging Face2024-10-16 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Marqo/marqo-GS-10M

下载链接

链接失效反馈

官方服务：

资源简介：

Marqo-GS-10M 数据集是一个多模态、细粒度的 Google 购物排名数据集。该数据集包含图像、查询、产品ID、位置、标题等多种特征，并设计用于改进和衡量信息检索模型的排名性能，特别是针对搜索查询检索相关产品的场景。数据集通过广义对比学习（GCL）框架进行训练，旨在超越二元相关性评分，学习更细粒度的排名信息。数据集分为多个子集，包括训练集、新查询集、新文档集和零样本集，每个子集都包含详细的相关性评分。此外，数据集还提供了用于训练和基准测试的下载链接，以及使用 Hugging Face 的 `datasets` 库加载数据集的示例代码。

The Marqo-GS-10M dataset is a multi-modal, fine-grained Google Shopping ranking dataset. This dataset encompasses multiple features including images, queries, product IDs, locations, titles and more, and is designed to improve and evaluate the ranking performance of information retrieval models, particularly in scenarios where relevant products are retrieved via search queries. The dataset is trained using the Generalized Contrastive Learning (GCL) framework, aiming to go beyond binary relevance scores and learn finer-grained ranking information. The dataset is divided into multiple subsets, including training set, new query set, new document set and zero-shot set, each of which contains detailed relevance scores. In addition, the dataset provides download links for training and benchmarking, as well as sample code for loading the dataset using Hugging Face's `datasets` library.

创建时间：

2024-10-15

原始信息汇总

Marqo-GS-10M 数据集概述

数据集信息

许可证: Apache 2.0
语言: 英语
标签: 多模态, GCL
大小类别: 1M < n < 10M
特征:
- image: 图像
- query: 字符串
- product_id: 字符串
- position: 整数
- title: 字符串
- pair_id: 字符串
- score_linear: 整数
- score_reciprocal: 浮点数
- no_score: 整数
- query_id: 字符串

配置

默认配置:
- in_domain: data/in_domain-*
- novel_document: data/novel_document-*
- novel_query: data/novel_query-*
- zero_shot: data/zero_shot-*

数据集结构

目录结构:

marqo-gs-dataset/ ├── marqo_gs_full_10m/ │ ├── corpus_1.json │ ├── corpus_2.json │ ├── query_0_product_id_0.csv │ ├── query_0_product_id_0_gt_dev.json │ ├── query_0_product_id_0_gt_test.json │ ├── query_0_product_id_0_queries.json │ ├── query_0_product_id_1.csv │ ├── query_0_product_id_1_gt_dev.json │ ├── query_0_product_id_1_gt_test.json │ ├── query_0_product_id_1_queries.json │ ├── query_1_product_id_0.csv │ ├── query_1_product_id_0_gt_dev.json │ ├── query_1_product_id_0_gt_test.json │ ├── query_1_product_id_0_queries.json │ ├── query_1_product_id_1.csv │ ├── query_1_product_id_1_gt_dev.json │ ├── query_1_product_id_1_gt_test.json │ └── query_1_product_id_1_queries.json ├── marqo_gs_fashion_5m/ ├── marqo_gs_wfash_1m/

数据集下载

完整数据集: 下载链接
完整图像: 下载链接
样本图像: 下载链接

数据集可视化

示例: 包含搜索查询、文档和分数的收集三元组数据集的可视化，展示了返回产品的缩略图及其线性递减的分数。

使用说明

环境安装: bash conda create -n gcl python=3.8 conda activate gcl conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia pip install jupyterlab pandas matplotlib beir pytrec_eval braceexpand webdataset wandb notebook open_clip_torch pip install --force-reinstall numpy==1.23.2
评估: bash python change_image_paths.py /dataset/csv/dir/path /image/root/path bash ./scripts/eval-vitb32-ckpt.sh

模型下载

多模态/文本-图像:
- CLIP (ViT-L-14): 模型下载
- GCL (ViT-B-32): 模型下载
- GCL (ViT-L-14): 模型下载
- GCL (ViT-B-32): 模型下载
- GCL (ViT-L-14): 模型下载
文本:
- GCL (e5-large-v2): 模型下载
- GCL (xlm-roberta-base-ViT-B-32): 模型下载

引用

@misc{zhu2024generalized, title={Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking}, author={Tianyu Zhu and Myong Chol Jung and Jesse Clark}, year={2024}, eprint={2404.08535}, archivePrefix={arXiv}, primaryClass={cs.IR} }

搜集汇总

数据集介绍

构建方式

Marqo-GS-10M数据集的构建基于Google Shopping平台，旨在支持多模态细粒度排序任务。该数据集通过收集搜索查询与相关产品之间的配对信息，并结合图像、标题等多模态数据，构建了一个包含详细相关性评分的大规模数据集。数据集的构建过程特别注重查询与文档的多维度切分，包括训练集、新查询集、新文档集和零样本集，以确保模型在不同场景下的泛化能力。

特点

Marqo-GS-10M数据集的特点在于其多模态性和细粒度排序能力。数据集不仅包含文本查询和产品标题，还整合了产品图像，提供了丰富的多模态信息。此外，每个查询-文档对都附带了线性评分、倒数评分等多种相关性评分，支持更精细的排序任务。数据集的分割设计使其能够有效评估模型在冷启动和零样本场景下的表现，为多模态检索和排序研究提供了强有力的支持。

使用方法

Marqo-GS-10M数据集的使用方法灵活多样，用户可以通过Hugging Face的`datasets`库直接加载数据集，或通过提供的下载链接获取完整数据集和图像。数据集适用于训练和评估广义对比学习（GCL）框架，用户可以根据需要选择不同的分割进行实验。此外，数据集还提供了详细的评估脚本和模型下载链接，方便用户快速验证和比较不同模型的性能。通过结合多模态数据和细粒度评分，用户能够深入探索多模态检索和排序任务中的关键问题。

背景与挑战

背景概述

Marqo-GS-10M数据集由Marqo团队于2024年发布，旨在推动多模态检索与排序领域的研究。该数据集基于Google Shopping平台，包含了丰富的图像、查询文本、产品ID等多模态数据，并提供了细粒度的相关性评分。数据集的核心研究问题在于如何通过广义对比学习（GCL）框架，提升信息检索模型在给定搜索查询下检索相关产品的排序性能。Marqo-GS-10M的发布为多模态检索任务提供了大规模、高质量的训练与评估资源，显著推动了该领域的技术进步。

当前挑战

Marqo-GS-10M数据集在构建与应用过程中面临多重挑战。首先，多模态数据的对齐与融合是核心难题，如何有效结合图像与文本信息以提升检索性能仍需深入研究。其次，细粒度排序的引入增加了数据标注的复杂性，确保评分的一致性与准确性成为关键挑战。此外，数据集的规模庞大，对计算资源与模型训练效率提出了更高要求。在应用层面，如何将GCL框架推广至更广泛的检索场景，并提升其在冷启动问题中的表现，仍需进一步探索与优化。

常用场景

经典使用场景

marqo-GS-10M数据集在多模态检索和排序任务中展现了其独特的价值。该数据集通过结合图像和文本信息，为研究者提供了一个丰富的实验平台，特别是在电子商务领域的产品检索中。通过使用该数据集，研究人员可以训练和评估多模态模型，以提升搜索引擎在复杂查询场景下的表现。

解决学术问题

marqo-GS-10M数据集解决了多模态检索中细粒度排序的难题。传统的对比学习框架通常依赖于二元相关性，难以捕捉复杂的排序信息。该数据集通过提供详细的查询-文档对相关性评分，使得研究者能够开发出更精确的排序模型，显著提升了检索系统的性能。

衍生相关工作

marqo-GS-10M数据集催生了一系列相关研究，特别是在多模态对比学习领域。基于该数据集，研究者提出了广义对比学习（GCL）框架，该框架在多个基准测试中表现优异。此外，该数据集还推动了多模态检索模型的创新，为后续研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集