Real20M

github2024-07-03 更新2024-07-04 收录

下载链接：

https://github.com/ChenAnno/Real20M_ACMMM2023

下载链接

链接失效反馈

官方服务：

资源简介：

Real20M是一个大规模的电子商务数据集，用于跨域检索。该数据集包含大约136G的存储消耗，组织格式包括商品图像、视频帧及其相关文本。

Real20M is a large-scale e-commerce dataset designed for cross-domain retrieval. It occupies approximately 136 gigabytes of storage space, with its structure encompassing product images, video frames, and their associated text content.

创建时间：

2024-07-03

原始信息汇总

Real20M: A Large-scale E-commerce Dataset for Cross-domain Retrieval

数据集

概述

名称: Real20M
规模: 约136G存储消耗
下载: 需签署Release Agreement并发送到Yanzhe Chen，收到请求后将提供下载链接和指南。

组织格式

unicode Dataset/ ├─ Real20M|Real400K/ │ ├─ query/ │ ├─ goods/ │ │ ├─ images │ │ ├─ text │ ├─ video/ │ │ ├─ images │ │ ├─ text ├─ train_file/ ├─ test_file/ ├─ checkpoints/

快速开始

数据集: 包含数据、分割文件和检查点。
评估: 包含快速检索的评估脚本，约20分钟在V100上运行。
模型: 包含项目中使用的模型及相关比较模型。
工具: 包含支持项目中各种任务的实用函数。

训练与评估

训练: 基于PyTorch和DistributedDataParallel (DDP)，预训练在2个节点上，每个节点8个V100 GPU（10个epoch约两天）。
评估脚本: bash

训练查询引导的跨域检索框架

sh train.sh

在Video2goods任务上评估

sh video2goods_evaluate.sh

在Goods2video任务上评估

sh goods2video_evaluate.sh

模型权重

下载: 提供百度网盘下载链接，下载后将检查点放在outputs/checkpoints/下，pretrain.pth.tar为预训练模型，checkpoint.pth.tar为达到SOTA结果的模型。

引用

bibtex @inproceedings{chen2023real20m, title={Real20M: A large-scale e-commerce dataset for cross-domain retrieval}, author={Chen, Yanzhe and Zhong, Huasong and He, Xiangteng and Peng, Yuxin and Cheng, Lele}, booktitle={Proceedings of the 31st ACM International Conference on Multimedia}, pages={4939--4948}, year={2023} }

搜集汇总

数据集介绍

构建方式

Real20M数据集的构建基于大规模的电子商务平台数据，涵盖了商品图像、视频帧及其相关文本信息。数据集的组织结构经过精心设计，确保了商品图像、视频帧与文本之间的对应关系清晰。具体而言，数据集分为多个子目录，包括查询、商品和视频部分，每个部分又细分为图像和文本子目录。这种结构化的设计不仅便于数据的存储和管理，也为后续的跨域检索任务提供了便利。

特点

Real20M数据集的主要特点在于其大规模和跨域特性。该数据集包含了约136G的数据，涵盖了丰富的商品图像、视频帧及其相关文本，为跨域检索任务提供了充足的数据支持。此外，数据集的组织形式确保了不同数据类型之间的对应关系，使得模型能够更好地理解和处理跨域信息。这种设计不仅提升了数据集的实用性，也为研究者提供了丰富的实验资源。

使用方法

使用Real20M数据集时，用户需首先下载数据集并按照提供的组织结构进行存储。数据集的快速启动指南提供了详细的步骤，包括数据加载、模型初始化、训练和测试等。用户可以通过运行提供的脚本文件进行训练和评估，具体包括跨域检索框架的训练和视频到商品、商品到视频的评估任务。此外，数据集还提供了预训练模型权重，用户可直接加载这些权重以加速模型训练过程。

背景与挑战

背景概述

Real20M数据集是由北京大学和快手科技的研究团队在2023年共同创建的，旨在解决大规模电子商务中的跨域检索问题。该数据集的核心研究问题是如何在不同领域间高效地进行商品与视频内容的匹配，这对于提升用户体验和推荐系统的准确性具有重要意义。Real20M不仅包含了大量的商品图像和视频帧，还附带了丰富的文本描述，为跨域检索研究提供了全面的数据支持。该数据集的发布对电子商务和多媒体检索领域的研究产生了深远影响，推动了相关技术的进步。

当前挑战

Real20M数据集在构建过程中面临了多项挑战。首先，数据集的规模庞大，需要约136G的存储空间，这对数据管理和处理提出了高要求。其次，跨域检索的复杂性使得数据集的组织和标注工作变得尤为困难，确保商品图像、视频帧及其相关文本的准确对应是一个重要挑战。此外，由于数据集的多样性和复杂性，如何在有限的计算资源下高效地进行训练和评估也是一个亟待解决的问题。最后，数据集的发布和使用需遵循严格的法律和伦理规范，确保数据的安全性和隐私保护。

常用场景

经典使用场景

Real20M数据集在电子商务领域中，主要用于跨域检索任务。该数据集包含了大量的商品图像、视频帧及其相关文本，为研究者提供了一个丰富的资源库，以探索和实现高效的跨域检索模型。通过结合图像、视频和文本数据，研究者可以开发出能够从不同域中检索相关商品的算法，从而提升用户体验和搜索效率。

衍生相关工作

基于Real20M数据集，研究者们开发了多种跨域检索模型和算法，推动了相关领域的研究进展。例如，一些研究工作利用该数据集进行多模态特征融合，提升了检索性能；另一些工作则探索了跨域知识迁移的方法，以解决数据稀疏性问题。这些衍生工作不仅丰富了跨域检索的理论体系，也为实际应用提供了强有力的技术支持。

数据集最近研究

Real20M

Real20M: A Large-scale E-commerce Dataset for Cross-domain Retrieval

数据集

概述

组织格式

快速开始

训练与评估

训练查询引导的跨域检索框架

在Video2goods任务上评估

在Goods2video任务上评估

模型权重

引用