five

Real20M

收藏
github2024-07-03 更新2024-07-04 收录
下载链接:
https://github.com/ChenAnno/Real20M_ACMMM2023
下载链接
链接失效反馈
官方服务:
资源简介:
Real20M是一个大规模的电子商务数据集,用于跨域检索。该数据集包含大约136G的存储消耗,组织格式包括商品图像、视频帧及其相关文本。

Real20M is a large-scale e-commerce dataset designed for cross-domain retrieval. It occupies approximately 136 gigabytes of storage space, with its structure encompassing product images, video frames, and their associated text content.
创建时间:
2024-07-03
原始信息汇总

Real20M: A Large-scale E-commerce Dataset for Cross-domain Retrieval

数据集

概述

  • 名称: Real20M
  • 规模: 约136G存储消耗
  • 下载: 需签署Release Agreement并发送到Yanzhe Chen,收到请求后将提供下载链接和指南。

组织格式

unicode Dataset/ ├─ Real20M|Real400K/ │ ├─ query/ │ ├─ goods/ │ │ ├─ images │ │ ├─ text │ ├─ video/ │ │ ├─ images │ │ ├─ text ├─ train_file/ ├─ test_file/ ├─ checkpoints/

快速开始

  • 数据集: 包含数据、分割文件和检查点。
  • 评估: 包含快速检索的评估脚本,约20分钟在V100上运行。
  • 模型: 包含项目中使用的模型及相关比较模型。
  • 工具: 包含支持项目中各种任务的实用函数。

训练与评估

  • 训练: 基于PyTorch和DistributedDataParallel (DDP),预训练在2个节点上,每个节点8个V100 GPU(10个epoch约两天)。

  • 评估脚本: bash

    训练查询引导的跨域检索框架

    sh train.sh

    在Video2goods任务上评估

    sh video2goods_evaluate.sh

    在Goods2video任务上评估

    sh goods2video_evaluate.sh

模型权重

  • 下载: 提供百度网盘下载链接,下载后将检查点放在outputs/checkpoints/下,pretrain.pth.tar为预训练模型,checkpoint.pth.tar为达到SOTA结果的模型。

引用

bibtex @inproceedings{chen2023real20m, title={Real20M: A large-scale e-commerce dataset for cross-domain retrieval}, author={Chen, Yanzhe and Zhong, Huasong and He, Xiangteng and Peng, Yuxin and Cheng, Lele}, booktitle={Proceedings of the 31st ACM International Conference on Multimedia}, pages={4939--4948}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
Real20M数据集的构建基于大规模的电子商务平台数据,涵盖了商品图像、视频帧及其相关文本信息。数据集的组织结构经过精心设计,确保了商品图像、视频帧与文本之间的对应关系清晰。具体而言,数据集分为多个子目录,包括查询、商品和视频部分,每个部分又细分为图像和文本子目录。这种结构化的设计不仅便于数据的存储和管理,也为后续的跨域检索任务提供了便利。
特点
Real20M数据集的主要特点在于其大规模和跨域特性。该数据集包含了约136G的数据,涵盖了丰富的商品图像、视频帧及其相关文本,为跨域检索任务提供了充足的数据支持。此外,数据集的组织形式确保了不同数据类型之间的对应关系,使得模型能够更好地理解和处理跨域信息。这种设计不仅提升了数据集的实用性,也为研究者提供了丰富的实验资源。
使用方法
使用Real20M数据集时,用户需首先下载数据集并按照提供的组织结构进行存储。数据集的快速启动指南提供了详细的步骤,包括数据加载、模型初始化、训练和测试等。用户可以通过运行提供的脚本文件进行训练和评估,具体包括跨域检索框架的训练和视频到商品、商品到视频的评估任务。此外,数据集还提供了预训练模型权重,用户可直接加载这些权重以加速模型训练过程。
背景与挑战
背景概述
Real20M数据集是由北京大学和快手科技的研究团队在2023年共同创建的,旨在解决大规模电子商务中的跨域检索问题。该数据集的核心研究问题是如何在不同领域间高效地进行商品与视频内容的匹配,这对于提升用户体验和推荐系统的准确性具有重要意义。Real20M不仅包含了大量的商品图像和视频帧,还附带了丰富的文本描述,为跨域检索研究提供了全面的数据支持。该数据集的发布对电子商务和多媒体检索领域的研究产生了深远影响,推动了相关技术的进步。
当前挑战
Real20M数据集在构建过程中面临了多项挑战。首先,数据集的规模庞大,需要约136G的存储空间,这对数据管理和处理提出了高要求。其次,跨域检索的复杂性使得数据集的组织和标注工作变得尤为困难,确保商品图像、视频帧及其相关文本的准确对应是一个重要挑战。此外,由于数据集的多样性和复杂性,如何在有限的计算资源下高效地进行训练和评估也是一个亟待解决的问题。最后,数据集的发布和使用需遵循严格的法律和伦理规范,确保数据的安全性和隐私保护。
常用场景
经典使用场景
Real20M数据集在电子商务领域中,主要用于跨域检索任务。该数据集包含了大量的商品图像、视频帧及其相关文本,为研究者提供了一个丰富的资源库,以探索和实现高效的跨域检索模型。通过结合图像、视频和文本数据,研究者可以开发出能够从不同域中检索相关商品的算法,从而提升用户体验和搜索效率。
衍生相关工作
基于Real20M数据集,研究者们开发了多种跨域检索模型和算法,推动了相关领域的研究进展。例如,一些研究工作利用该数据集进行多模态特征融合,提升了检索性能;另一些工作则探索了跨域知识迁移的方法,以解决数据稀疏性问题。这些衍生工作不仅丰富了跨域检索的理论体系,也为实际应用提供了强有力的技术支持。
数据集最近研究
最新研究方向
在电子商务领域,Real20M数据集的最新研究方向主要集中在跨域检索技术的优化与应用。该数据集通过整合大规模的商品图像、视频帧及其相关文本信息,为研究人员提供了丰富的多模态数据资源。前沿研究聚焦于如何通过深度学习模型,如基于Transformer的架构,实现高效的跨域信息检索,从而提升用户体验和推荐系统的准确性。此外,数据集的开放也促进了多模态学习与跨域检索技术的融合,推动了相关算法在实际应用中的性能提升。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作