five

emoticon dataset|用户行为分析数据集|表情符号研究数据集

收藏
arXiv2025-02-26 更新2025-02-28 收录
用户行为分析
表情符号研究
下载链接:
https://huggingface.co/datasets/metchee/u-sticker
下载链接
链接失效反馈
资源简介:
该数据集名为emoticon dataset,由清华大学DCST和济南量子技术研究院联合创建。这是一个包含10个不同领域、跨语言、时间序列丰富的表情符号用户交互数据集,共包含22K个独特用户,370K个表情符号和8.3M条对话信息。数据集从广泛使用的即时通讯平台中收集,经过严格的数据完整性和安全性检查。该数据集为公开可访问的最大表情符号数据集,可广泛应用于用户行为分析和个性化表情推荐系统等研究。
提供机构:
清华大学
创建时间:
2025-02-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程遵循了一系列严格的标准,包括表情符号的高频出现、话题多样性、真实互动、语言多样性和可扩展性。研究人员从Telegram平台手动筛选了数百个对话组,并最终选择了71个对话组进行数据抓取。数据预处理包括文本处理、表情符号处理、不安全文本检测和替换、不安全图像检测和替换、用户标识符匿名化、消息信息匿名化、其他敏感信息匿名化以及手动验证。最后,对话话题被标记为10个主要领域,包括语言、艺术、游戏、技术、金融、社交、媒体共享、户外、动漫和粉丝俱乐部。
特点
该数据集的特点包括:包含22K用户、370K表情符号和8.3M对话消息,是目前为止最大的公开可访问表情符号数据集;涵盖10个领域,捕捉到以前数据集中没有的时间、多语言和跨领域行为;通过广泛的定量和定性实验,展示了数据集在用户行为分析和个性化表情符号推荐方面的实际应用。
使用方法
该数据集可用于用户行为分析、个性化表情符号推荐等研究。使用数据集时,用户可以通过不同的角度进行评估,例如英语和中文子集、特定领域子集和完整数据集。数据集还包括用户在不同时间段内的行为变化,以及用户对不同回应者的行为变化。这些信息可以用于更深入的用户行为建模和个性化推荐系统研究。
背景与挑战
背景概述
随着即时通讯的普及,表情符号作为一种传达情感和信息的有效方式,在用户间交流中发挥着越来越重要的作用。为了更好地理解和预测用户在对话中的表情符号使用行为,清华大学的研究团队创建了一个包含106,000个多主题多语言对话用户数据集,该数据集被称为emoticon dataset。该数据集由Heng Er Metilda Chee等人于2025年发布,是迄今为止最大的公开可用的表情符号数据集。该数据集包括了22,000个用户、370,000个表情符号和8.3M条消息,这些数据是从一个广泛使用的即时通讯平台上收集而来的。该数据集涵盖了10个不同的领域,为研究人员提供了丰富的见解,包括时间动态、多语言和跨领域的行为,这些数据在之前的表情符号数据集中是不可用的。通过对用户行为和个性化推荐系统进行深入实验,该数据集展示了其在用户行为分析和个性化推荐系统中的潜在应用价值。
当前挑战
尽管表情符号数据集在研究和应用中具有重要意义,但在创建和使用过程中仍然面临着一些挑战。首先,表情符号数据集的构建需要考虑用户隐私和数据安全问题。为了保护用户隐私,数据集中对所有用户ID进行了匿名处理,并对文本和图像数据进行了严格的安全检查。其次,表情符号数据集的构建需要考虑数据的多样性和代表性。该数据集涵盖了10个不同的领域,包括语言、艺术、游戏、技术、金融、社交、媒体共享、户外、动漫和粉丝俱乐部等。然而,仍然需要进一步的研究来探索更多领域的表情符号使用行为。最后,表情符号数据集的构建需要考虑数据的可扩展性。该数据集包含了8.3M条消息,但这些数据仍然可能无法完全覆盖所有用户的表情符号使用行为。因此,需要进一步扩大数据集的规模,以更好地反映用户的行为模式和偏好。
常用场景
经典使用场景
在即时通讯领域,表情符号已经成为用户表达情感和意图的重要媒介。然而,由于缺乏能够捕捉表情符号时间动态和用户交互的数据集,个性化用户建模和推荐系统的进展受到了限制。为了解决这个问题,emoticon dataset应运而生,这是一个包含时间和匿名用户标识的全面资源,涵盖了22K个独特用户、370K个表情符号和8.3M条消息。该数据集收集自一个广泛使用的消息平台,跨越了67个对话和720小时的爬取时间。emoticon dataset提供了关于时间、多语言和跨领域行为的丰富见解,这对于表情符号研究来说是一个突破。
解决学术问题
emoticon dataset解决了表情符号研究中的一些关键挑战,包括缺乏用户信息、多语言覆盖不足和跨领域行为数据稀缺。该数据集的引入使得研究人员能够更深入地分析用户行为,并开发个性化的表情符号推荐系统。此外,该数据集还提供了对用户偏好和表情符号使用模式的新见解,为表情符号检索和推荐研究开辟了新的可能性。
衍生相关工作
emoticon dataset的发布推动了表情符号研究领域的进一步发展。基于该数据集,研究人员开发了多种表情符号检索和推荐算法,如MOD和SRS。此外,该数据集还被用于开发情感分析工具,帮助研究人员更好地理解用户的情感状态。emoticon dataset的引入为表情符号研究开辟了新的可能性,并促进了该领域的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录