emoticon dataset

Name: emoticon dataset
Creator: 清华大学
Published: 2025-02-26 20:50:58
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

https://huggingface.co/datasets/metchee/u-sticker

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为emoticon dataset，由清华大学DCST和济南量子技术研究院联合创建。这是一个包含10个不同领域、跨语言、时间序列丰富的表情符号用户交互数据集，共包含22K个独特用户，370K个表情符号和8.3M条对话信息。数据集从广泛使用的即时通讯平台中收集，经过严格的数据完整性和安全性检查。该数据集为公开可访问的最大表情符号数据集，可广泛应用于用户行为分析和个性化表情推荐系统等研究。

This dataset, named Emoticon Dataset, was jointly created by the DCST of Tsinghua University and Jinan Institute of Quantum Technology. It is a cross-lingual user interaction dataset rich in temporal sequences, covering 10 distinct domains, with a total of 22K unique users, 370K emojis, and 8.3M conversation messages. The dataset was collected from widely used instant messaging platforms and underwent strict data integrity and security checks. As the largest publicly accessible emoji dataset to date, it can be widely applied to research such as user behavior analysis and personalized emoji recommendation systems.

提供机构：

清华大学

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

该数据集的构建过程遵循了一系列严格的标准，包括表情符号的高频出现、话题多样性、真实互动、语言多样性和可扩展性。研究人员从Telegram平台手动筛选了数百个对话组，并最终选择了71个对话组进行数据抓取。数据预处理包括文本处理、表情符号处理、不安全文本检测和替换、不安全图像检测和替换、用户标识符匿名化、消息信息匿名化、其他敏感信息匿名化以及手动验证。最后，对话话题被标记为10个主要领域，包括语言、艺术、游戏、技术、金融、社交、媒体共享、户外、动漫和粉丝俱乐部。

特点

该数据集的特点包括：包含22K用户、370K表情符号和8.3M对话消息，是目前为止最大的公开可访问表情符号数据集；涵盖10个领域，捕捉到以前数据集中没有的时间、多语言和跨领域行为；通过广泛的定量和定性实验，展示了数据集在用户行为分析和个性化表情符号推荐方面的实际应用。

使用方法

该数据集可用于用户行为分析、个性化表情符号推荐等研究。使用数据集时，用户可以通过不同的角度进行评估，例如英语和中文子集、特定领域子集和完整数据集。数据集还包括用户在不同时间段内的行为变化，以及用户对不同回应者的行为变化。这些信息可以用于更深入的用户行为建模和个性化推荐系统研究。

背景与挑战

背景概述

随着即时通讯的普及，表情符号作为一种传达情感和信息的有效方式，在用户间交流中发挥着越来越重要的作用。为了更好地理解和预测用户在对话中的表情符号使用行为，清华大学的研究团队创建了一个包含106,000个多主题多语言对话用户数据集，该数据集被称为emoticon dataset。该数据集由Heng Er Metilda Chee等人于2025年发布，是迄今为止最大的公开可用的表情符号数据集。该数据集包括了22,000个用户、370,000个表情符号和8.3M条消息，这些数据是从一个广泛使用的即时通讯平台上收集而来的。该数据集涵盖了10个不同的领域，为研究人员提供了丰富的见解，包括时间动态、多语言和跨领域的行为，这些数据在之前的表情符号数据集中是不可用的。通过对用户行为和个性化推荐系统进行深入实验，该数据集展示了其在用户行为分析和个性化推荐系统中的潜在应用价值。

当前挑战

尽管表情符号数据集在研究和应用中具有重要意义，但在创建和使用过程中仍然面临着一些挑战。首先，表情符号数据集的构建需要考虑用户隐私和数据安全问题。为了保护用户隐私，数据集中对所有用户ID进行了匿名处理，并对文本和图像数据进行了严格的安全检查。其次，表情符号数据集的构建需要考虑数据的多样性和代表性。该数据集涵盖了10个不同的领域，包括语言、艺术、游戏、技术、金融、社交、媒体共享、户外、动漫和粉丝俱乐部等。然而，仍然需要进一步的研究来探索更多领域的表情符号使用行为。最后，表情符号数据集的构建需要考虑数据的可扩展性。该数据集包含了8.3M条消息，但这些数据仍然可能无法完全覆盖所有用户的表情符号使用行为。因此，需要进一步扩大数据集的规模，以更好地反映用户的行为模式和偏好。

常用场景

经典使用场景

在即时通讯领域，表情符号已经成为用户表达情感和意图的重要媒介。然而，由于缺乏能够捕捉表情符号时间动态和用户交互的数据集，个性化用户建模和推荐系统的进展受到了限制。为了解决这个问题，emoticon dataset应运而生，这是一个包含时间和匿名用户标识的全面资源，涵盖了22K个独特用户、370K个表情符号和8.3M条消息。该数据集收集自一个广泛使用的消息平台，跨越了67个对话和720小时的爬取时间。emoticon dataset提供了关于时间、多语言和跨领域行为的丰富见解，这对于表情符号研究来说是一个突破。

解决学术问题

emoticon dataset解决了表情符号研究中的一些关键挑战，包括缺乏用户信息、多语言覆盖不足和跨领域行为数据稀缺。该数据集的引入使得研究人员能够更深入地分析用户行为，并开发个性化的表情符号推荐系统。此外，该数据集还提供了对用户偏好和表情符号使用模式的新见解，为表情符号检索和推荐研究开辟了新的可能性。

衍生相关工作

emoticon dataset的发布推动了表情符号研究领域的进一步发展。基于该数据集，研究人员开发了多种表情符号检索和推荐算法，如MOD和SRS。此外，该数据集还被用于开发情感分析工具，帮助研究人员更好地理解用户的情感状态。emoticon dataset的引入为表情符号研究开辟了新的可能性，并促进了该领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集