CBVS

Name: CBVS
Creator: 腾讯PCG
Published: 2024-01-25 14:58:17
License: 暂无描述

arXiv2024-01-25 更新2024-06-21 收录

下载链接：

https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP

下载链接

链接失效反馈

官方服务：

资源简介：

CBVS是一个针对中文短视频搜索场景的大型图像-文本基准数据集，由腾讯PCG创建。该数据集包含20,001对高质量的<用户查询-视频封面>对，用于图像-文本基准测试。数据集通过从QQ浏览器捕获用户查询日志和从多个视频平台收集视频封面来构建。CBVS旨在解决短视频封面数据缺乏的问题，并支持视觉语言模型在预训练或微调任务中的模态对齐。数据集的应用领域包括图像分类和图像-文本匹配，旨在提高短视频搜索的效率和准确性。

CBVS is a large-scale image-text benchmark dataset tailored for Chinese short-video search scenarios, developed by Tencent PCG. This dataset contains 20,001 high-quality <user query-video cover> pairs for image-text benchmark testing. It is constructed by capturing user query logs from QQ Browser and collecting video covers from multiple video platforms. CBVS aims to address the shortage of short-video cover data, and supports modal alignment of vision-language models during pre-training or fine-tuning tasks. Its application fields include image classification and image-text matching, with the goal of improving the efficiency and accuracy of short-video search.

提供机构：

腾讯PCG

创建时间：

2024-01-19

搜集汇总

数据集介绍

背景与挑战

背景概述

CBVS是一个针对中文短视频搜索场景的大规模封面文本基准数据集，包含三个版本：CBVS-20K（有标注，用于测试）、CBVS-5M和CBVS-10M（无标注，用于预训练和微调），数据来源于短视频封面图像和多种文本类型（如用户查询、OCR文本和标题），旨在支持多模态对比学习模型UniCLIP的开发和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集