VSD2M

Name: VSD2M
Creator: 微信人工智能，腾讯
Published: 2024-12-11 18:11:41
License: 暂无描述

arXiv2024-12-11 更新2024-12-13 收录

下载链接：

https://anonymous0722.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

VSD2M是由微信人工智能和腾讯创建的目前最大的视觉语言贴纸数据集，包含209万条静态和动态贴纸数据。该数据集通过网络爬取、数据过滤、标注和数据集分割四个阶段构建，涵盖了丰富的情感和动作描述，特别适用于多帧动画贴纸生成任务。数据集的创建旨在解决动画贴纸生成领域的数据获取困难和基准不完善的问题，推动智能创作领域的研究。

VSD2M is currently the largest visual-language sticker dataset developed by WeChat AI and Tencent. It consists of 2.09 million static and dynamic sticker samples. This dataset is constructed through four stages: web crawling, data filtering, annotation, and dataset splitting. It covers rich emotional and action-related descriptions, and is particularly well-suited for multi-frame animated sticker generation tasks. The dataset was created to address the challenges of limited data availability and incomplete benchmarks in the animated sticker generation domain, and to advance research in the field of intelligent creation.

提供机构：

微信人工智能，腾讯

创建时间：

2024-12-11

搜集汇总

数据集介绍

构建方式

VSD2M数据集通过大规模的网络爬取和数据筛选构建而成，涵盖了250万条数据样本。数据收集过程包括从互联网上爬取60万条关键词，并通过筛选剔除不符合条件的数据，如长光学字符、低信息熵和异常宽高比的样本。最终，数据集包含了210万条静态和动态贴纸，并通过手动标注和半自动标注相结合的方式进行数据标注，确保了数据的高质量和多样性。

特点

VSD2M数据集是目前最大的视觉-语言贴纸数据集，包含了静态和动态贴纸，特别是动态贴纸（GIFs）的引入为研究者提供了丰富的多帧动画数据。数据集中的标注不仅包括静态内容，还详细描述了动态贴纸中的动作信息，极大地增强了数据集的语义丰富性和控制能力。此外，数据集还提供了中英文双语标注，以满足不同研究者的需求。

使用方法

VSD2M数据集适用于多种视觉-语言生成任务，特别是多帧动画贴纸生成任务。研究者可以使用该数据集训练基于Transformer或扩散模型的视频生成方法，并通过提出的空间-时间交互层（STI层）来提升模型在处理离散数据时的表现。数据集的标注信息可以用于监督学习，帮助模型更好地理解贴纸的动态行为和语义内容，从而生成高质量的动画贴纸。

背景与挑战

背景概述

随着社交媒体中表情包的广泛使用，动态表情包因其生动的动作和丰富的情感表达而备受欢迎。然而，现有的表情包生成研究主要集中在静态表情包的理解和生成上，缺乏对动态表情包生成的深入探索。为了填补这一空白，腾讯微信AI团队于2024年构建了目前最大的视觉语言表情包数据集VSD2M，该数据集包含200万级别的静态和动态表情包样本。VSD2M不仅为动态表情包生成任务提供了丰富的数据支持，还通过提出空间时间交互层（STI）来解决传统视频生成方法在处理离散数据时的不足，推动了动态表情包生成领域的研究进展。

当前挑战

VSD2M数据集的构建面临多重挑战。首先，动态表情包的生成任务因其低帧率和抽象的语义特征，使得传统视频生成方法难以有效处理。其次，数据集的构建过程中，如何从互联网中高效获取高质量的动态表情包样本，并进行有效的标注和筛选，是一个复杂的过程。此外，动态表情包的生成任务还面临着模型对空间和时间信息利用不足的问题，这限制了生成结果的连贯性和细节表现。为了应对这些挑战，VSD2M通过引入STI层，提升了模型对离散数据的处理能力，但如何在保持细节的同时增强语义交互仍是一个亟待解决的问题。

常用场景

经典使用场景

VSD2M数据集的经典使用场景主要集中在多帧动画贴纸生成任务中。该数据集通过提供大规模的视觉语言贴纸数据，包括静态和动态贴纸，为研究人员探索动画贴纸生成（ASG）任务提供了丰富的资源。通过结合视觉和语言信息，研究人员可以利用VSD2M数据集训练和评估各种视频生成方法，特别是针对低帧率、离散时间信息的动画贴纸生成任务。

实际应用

VSD2M数据集在实际应用中具有广泛的前景，特别是在社交平台和即时通讯工具中。动画贴纸作为一种常见的情感表达方式，能够增强用户之间的互动体验。通过利用VSD2M数据集，开发者可以生成高质量的定制化动画贴纸，满足用户对个性化表达的需求，从而提升用户体验和平台的用户粘性。

衍生相关工作

VSD2M数据集的发布催生了一系列相关研究工作，特别是在动画贴纸生成和视觉语言多模态任务中。研究人员基于VSD2M提出了空间时间交互（STI）层，以解决传统视频生成方法在处理离散数据时的不足。此外，VSD2M还为基于Transformer和扩散模型的视频生成方法提供了基准测试，推动了动画贴纸生成领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集