StickerQueries

Name: StickerQueries
Creator: 清华大学
Published: 2025-06-02 21:38:45
License: 暂无描述

arXiv2025-06-02 更新2025-06-05 收录

下载链接：

https://huggingface.co/datasets/metchee/sticker-queries

下载链接

链接失效反馈

官方服务：

资源简介：

StickerQueries是一个多语言贴纸查询数据集，用于理解并检索上下文中的贴纸。数据集由1,115个英文查询和615个中文查询组成，由超过60位贡献者经过60多个小时的标注工作。该数据集通过一个游戏化的标注框架Sticktionary收集数据，旨在生成高质量、语义丰富且与上下文相符的贴纸查询。数据集的创建旨在解决现有模型在生成情感驱动查询方面的不足，并为贴纸检索和推荐系统提供支持。StickerQueries数据集是公开可用的，并附带两个微调的查询生成模型，以促进未来的研究。

StickerQueries is a multilingual sticker query dataset developed for understanding and retrieving contextually relevant stickers. It comprises 1,115 English queries and 615 Chinese queries, annotated by over 60 contributors with a cumulative annotation time of more than 60 hours. The dataset was collected via a gamified annotation framework named Sticktionary, aiming to generate high-quality, semantically rich and context-consistent sticker queries. This dataset was created to address the limitations of existing models in generating emotion-driven queries, and to provide support for sticker retrieval and recommendation systems. The StickerQueries dataset is publicly available, and comes with two fine-tuned query generation models to facilitate future research.

提供机构：

清华大学

创建时间：

2025-06-02

原始信息汇总

StickerQueries 数据集概述

基本信息

许可证: MIT
任务类别: 文本生成
支持语言: 中文(zh)、英文(en)

数据集结构

中文标注文件: stickers_queries_zh_released.csv
英文标注文件: stickers_queries_en_released.csv
贴图资源: stickers/目录下包含.gif/.png/.webm格式的贴图

数据字段说明

sticker_id: 贴图文件路径
labeled_queries: 逗号分隔的查询标签，用于表达情感/语气/表情

标注信息

审核机制: 每条标注至少经过2人审核
标注团队:
- 英文标注员42人
- 中文标注员18人
总耗时: 超过60小时

引用格式

bibtex @misc{chee2025smallstickersbigmeanings, title={Small Stickers, Big Meanings: A Multilingual Sticker Semantic Understanding Dataset with a Gamified Approach}, author={Heng Er Metilda Chee and Jiayin Wang and Zhiqiang Guo and Weizhi Ma and Min Zhang}, year={2025}, eprint={2506.01668}, archivePrefix={arXiv}, primaryClass={cs.MM}, url={https://arxiv.org/abs/2506.01668}, }

搜集汇总

数据集介绍

构建方式

在数字通信时代，贴纸作为一种高度浓缩的视觉表达形式，广泛应用于各类消息平台，但其语义理解与检索任务仍面临挑战。StickerQueries数据集的构建采用了创新的游戏化标注框架Sticktionary，通过设计标签者与检索者两种角色交替参与的互动游戏机制，激励贡献者生成丰富多样且语义贴切的贴纸查询。该框架结合实时反馈循环与积分奖励系统，确保了查询的高质量、多样性和广泛共鸣性。数据筛选过程注重自然关联性，从U-Sticker数据集中精选了1,136条语境丰富的对话作为基础，最终通过60余名参与者超过60小时的协作，形成了包含1,115条英文和615条中文查询的多语言数据集。

使用方法

该数据集主要服务于两大应用场景：在查询生成任务中，研究者可将80%的训练集用于微调视觉语言模型（如LLaVA-1.5B-7B），实验显示其能使ROUGE-L指标提升40.8%（英文）和974.2%（中文）；在贴纸检索任务中，经数据集优化的模型生成的查询使BM25检索的Recall@1达到0.180（英文）和0.041（中文），显著优于BLIP2等基线方法。使用时应注重文化语境对齐，建议分别加载英文和中文子集进行跨语言对比研究，并利用附带的细粒度情感标签进行多维分析。数据集已开源于HuggingFace平台，包含预训练好的查询生成模型，可直接集成到现有检索系统进行性能增强。

背景与挑战

背景概述

StickerQueries数据集由清华大学的研究团队于2025年创建，旨在解决多语言贴纸语义理解与检索的核心问题。贴纸作为一种高度浓缩的视觉表达形式，在数字通信中广泛应用，但其语义理解与检索任务因涉及大量主观性和文化差异而长期缺乏高质量数据集支持。该数据集通过游戏化标注框架Sticktionary收集了1,115条英文和615条中文查询，覆盖情感表达、动作描述等多维度语义，填补了该领域公开数据资源的空白，并为跨文化贴纸交互研究提供了重要基准。

当前挑战

该数据集面临双重挑战：在领域问题层面，贴纸查询需捕捉微妙的情感差异和文化特定表达，传统视觉语言模型难以生成符合用户意图的精确描述；在构建过程中，标注工作需平衡主观性与一致性，游戏化设计虽提升参与度，但需解决查询多样性保持与语义共振验证的平衡问题。此外，双语查询的非对称文化映射使得直接翻译失效，需依赖母语者的本土化表达。

常用场景

经典使用场景

StickerQueries数据集在数字通信领域具有广泛的应用价值，特别是在即时通讯平台中。该数据集通过多语言标注的贴纸查询，为研究贴纸语义理解和检索提供了重要支持。其经典使用场景包括贴纸推荐系统的开发、情感分析模型的训练以及跨文化语境下的贴纸语义解析。数据集中的查询涵盖了丰富的情感表达、文化特定术语和日常用语，为研究者提供了真实且多样化的语料库。

解决学术问题

StickerQueries数据集解决了贴纸语义理解中的多个关键学术问题。首先，它填补了多语言贴纸查询数据集的空白，为跨文化研究提供了基础。其次，通过游戏化标注方法，数据集克服了传统标注中主观性强、质量不稳定的问题。此外，数据集还解决了视觉语言模型在生成贴纸查询时存在的幻觉问题，为模型优化提供了可靠基准。这些贡献显著推动了贴纸语义理解领域的研究进展。

实际应用

在实际应用中，StickerQueries数据集为即时通讯平台的贴纸搜索功能提供了重要支持。基于该数据集训练的模型能够更准确地理解用户查询意图，提升贴纸检索的准确率。同时，数据集中的多语言标注使得系统能够适应不同文化背景的用户需求。此外，数据集还可用于开发个性化的贴纸推荐系统，根据用户历史行为和偏好提供更精准的推荐。

数据集最近研究