five

emoticon dataset|用户行为分析数据集|表情符号研究数据集

收藏
arXiv2025-02-26 更新2025-02-28 收录
用户行为分析
表情符号研究
下载链接:
https://huggingface.co/datasets/metchee/u-sticker
下载链接
链接失效反馈
资源简介:
该数据集名为emoticon dataset,由清华大学DCST和济南量子技术研究院联合创建。这是一个包含10个不同领域、跨语言、时间序列丰富的表情符号用户交互数据集,共包含22K个独特用户,370K个表情符号和8.3M条对话信息。数据集从广泛使用的即时通讯平台中收集,经过严格的数据完整性和安全性检查。该数据集为公开可访问的最大表情符号数据集,可广泛应用于用户行为分析和个性化表情推荐系统等研究。
提供机构:
清华大学
创建时间:
2025-02-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程遵循了一系列严格的标准,包括表情符号的高频出现、话题多样性、真实互动、语言多样性和可扩展性。研究人员从Telegram平台手动筛选了数百个对话组,并最终选择了71个对话组进行数据抓取。数据预处理包括文本处理、表情符号处理、不安全文本检测和替换、不安全图像检测和替换、用户标识符匿名化、消息信息匿名化、其他敏感信息匿名化以及手动验证。最后,对话话题被标记为10个主要领域,包括语言、艺术、游戏、技术、金融、社交、媒体共享、户外、动漫和粉丝俱乐部。
特点
该数据集的特点包括:包含22K用户、370K表情符号和8.3M对话消息,是目前为止最大的公开可访问表情符号数据集;涵盖10个领域,捕捉到以前数据集中没有的时间、多语言和跨领域行为;通过广泛的定量和定性实验,展示了数据集在用户行为分析和个性化表情符号推荐方面的实际应用。
使用方法
该数据集可用于用户行为分析、个性化表情符号推荐等研究。使用数据集时,用户可以通过不同的角度进行评估,例如英语和中文子集、特定领域子集和完整数据集。数据集还包括用户在不同时间段内的行为变化,以及用户对不同回应者的行为变化。这些信息可以用于更深入的用户行为建模和个性化推荐系统研究。
背景与挑战
背景概述
随着即时通讯的普及,表情符号作为一种传达情感和信息的有效方式,在用户间交流中发挥着越来越重要的作用。为了更好地理解和预测用户在对话中的表情符号使用行为,清华大学的研究团队创建了一个包含106,000个多主题多语言对话用户数据集,该数据集被称为emoticon dataset。该数据集由Heng Er Metilda Chee等人于2025年发布,是迄今为止最大的公开可用的表情符号数据集。该数据集包括了22,000个用户、370,000个表情符号和8.3M条消息,这些数据是从一个广泛使用的即时通讯平台上收集而来的。该数据集涵盖了10个不同的领域,为研究人员提供了丰富的见解,包括时间动态、多语言和跨领域的行为,这些数据在之前的表情符号数据集中是不可用的。通过对用户行为和个性化推荐系统进行深入实验,该数据集展示了其在用户行为分析和个性化推荐系统中的潜在应用价值。
当前挑战
尽管表情符号数据集在研究和应用中具有重要意义,但在创建和使用过程中仍然面临着一些挑战。首先,表情符号数据集的构建需要考虑用户隐私和数据安全问题。为了保护用户隐私,数据集中对所有用户ID进行了匿名处理,并对文本和图像数据进行了严格的安全检查。其次,表情符号数据集的构建需要考虑数据的多样性和代表性。该数据集涵盖了10个不同的领域,包括语言、艺术、游戏、技术、金融、社交、媒体共享、户外、动漫和粉丝俱乐部等。然而,仍然需要进一步的研究来探索更多领域的表情符号使用行为。最后,表情符号数据集的构建需要考虑数据的可扩展性。该数据集包含了8.3M条消息,但这些数据仍然可能无法完全覆盖所有用户的表情符号使用行为。因此,需要进一步扩大数据集的规模,以更好地反映用户的行为模式和偏好。
常用场景
经典使用场景
在即时通讯领域,表情符号已经成为用户表达情感和意图的重要媒介。然而,由于缺乏能够捕捉表情符号时间动态和用户交互的数据集,个性化用户建模和推荐系统的进展受到了限制。为了解决这个问题,emoticon dataset应运而生,这是一个包含时间和匿名用户标识的全面资源,涵盖了22K个独特用户、370K个表情符号和8.3M条消息。该数据集收集自一个广泛使用的消息平台,跨越了67个对话和720小时的爬取时间。emoticon dataset提供了关于时间、多语言和跨领域行为的丰富见解,这对于表情符号研究来说是一个突破。
解决学术问题
emoticon dataset解决了表情符号研究中的一些关键挑战,包括缺乏用户信息、多语言覆盖不足和跨领域行为数据稀缺。该数据集的引入使得研究人员能够更深入地分析用户行为,并开发个性化的表情符号推荐系统。此外,该数据集还提供了对用户偏好和表情符号使用模式的新见解,为表情符号检索和推荐研究开辟了新的可能性。
衍生相关工作
emoticon dataset的发布推动了表情符号研究领域的进一步发展。基于该数据集,研究人员开发了多种表情符号检索和推荐算法,如MOD和SRS。此外,该数据集还被用于开发情感分析工具,帮助研究人员更好地理解用户的情感状态。emoticon dataset的引入为表情符号研究开辟了新的可能性,并促进了该领域的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录

LANDSLIDE DETECTION

该数据集专注于山体滑坡现象的识别与分类,旨在为改进YOLOv8模型提供高质量的训练数据。数据集包含1600幅图像,类别数量为1,具体类别为“LANDSLIDE”。数据集的构建考虑了山体滑坡的多样性与复杂性,确保模型在实际应用中具备良好的泛化能力。

github 收录