five

SMTPD

收藏
arXiv2025-03-06 更新2025-03-08 收录
下载链接:
https://github.com/zhuwei321/SMTPD
下载链接
链接失效反馈
官方服务:
资源简介:
SMTPD是由杭州电子科技大学、天津大学和北京大学的研究人员构建的一个新的社交媒体时序流行度预测基准数据集。该数据集通过观察主流社交媒体平台YouTube的多语言多模态内容,收集了超过282,000个样本,主要关注样本发布后30天内的流行度演变。数据集包含了视觉内容、文本内容、元数据和用户资料等多模态信息,并针对每种模态采用了不同的特征提取方法,以进行时序流行度预测。

SMTPD is a novel benchmark dataset for social media temporal popularity prediction, developed by researchers from Hangzhou Dianzi University, Tianjin University, and Peking University. This dataset collects over 282,000 samples by capturing multilingual and multimodal content from the mainstream social media platform YouTube, with a primary focus on the popularity evolution within 30 days following the release of each sample. The dataset encompasses multimodal information including visual content, text content, metadata, and user profiles, and employs distinct feature extraction methods for each modality to facilitate temporal popularity prediction tasks.
提供机构:
杭州电子科技大学, 天津大学, 北京大学
创建时间:
2025-03-06
搜集汇总
数据集介绍
main_image_url
构建方式
SMTPD数据集的构建方式主要围绕YouTube平台的多语言和多模态内容展开。研究者从YouTube上收集了超过402K的原始数据样本,经过数据清洗和筛选,最终形成了包含282K样本的数据集。数据集的构建不仅关注了帖子的发布时间,还记录了每个样本在发布后30天内的每日流行度信息,确保了时间线的一致性。此外,SMTPD数据集还包含了丰富的多模态内容,包括视觉内容、文本内容、元数据和用户资料等,为研究社交媒体流行度的动态变化提供了全面的数据支持。
特点
SMTPD数据集具有以下几个显著特点:首先,它是一个多语言的数据集,包含超过90种语言的样本,这使得研究者能够更好地理解不同语言环境下的社交媒体流行度动态。其次,SMTPD是一个多模态数据集,包含了视觉、文本、数值和分类等多种类型的数据,为多模态特征融合提供了丰富的数据基础。第三,SMTPD数据集强调了时间序列的一致性,所有样本的流行度数据都是基于相同的30天时间窗口收集的,这有助于研究者更准确地分析流行度随时间的变化趋势。最后,SMTPD数据集还包含了早期流行度的信息,这对于预测未来流行度具有重要的参考价值。
使用方法
使用SMTPD数据集进行社交媒体流行度预测时,研究者可以采用多模态特征提取和时序回归相结合的方法。首先,利用预训练模型和预处理方法对多模态内容进行特征提取,将视觉内容、文本内容、数值特征和分类特征转换为深度特征向量。然后,将这些特征向量输入到LSTM网络中进行时序编码,并使用多层感知器进行回归预测。在预测过程中,可以利用早期流行度的信息来提高预测的准确性。此外,研究者还可以根据SMTPD数据集的特点,设计不同的特征提取和回归模型,以适应不同的预测任务和场景。
背景与挑战
背景概述
随着互联网通信技术的迅猛发展,社交媒体已成为全球最受欢迎的媒体形式之一。社交媒体内容的热度预测对于内容优化、在线广告和数字营销等领域具有重要意义。现有的社交媒体热度预测数据集大多基于单一输出预测,缺乏时间对齐和多元语言支持。为了解决这些问题,SMTPD数据集应运而生。SMTPD数据集由杭州电子科技大学、天津大学和北京大学的研究团队创建,旨在构建一个多语言、多模态的时间序列热度预测基准。该数据集收集了YouTube平台上超过282K个样本,涵盖了多种语言和类别的内容,为研究社交媒体热度预测提供了宝贵的数据基础。
当前挑战
SMTPD数据集面临的挑战主要包括:1)社交媒体热度预测领域的时间对齐问题,即如何准确预测不同时间点的内容热度变化趋势;2)构建过程中遇到的挑战,包括多模态数据融合、多语言特征提取和时序热度预测等。为了应对这些挑战,SMTPD数据集采用了多模态特征提取框架和时序热度预测模型,并通过实验验证了该方法的有效性。然而,SMTPD数据集仍需进一步探索视频多帧信息、最大化利用语言多样性和更深入的多模态探索等方向,以进一步提高预测精度。
常用场景
经典使用场景
SMTPD数据集主要用于社交媒体流行度预测任务,该任务旨在预测社交媒体平台上帖子的流行度。通过对YouTube的多语言和多模态内容进行探索,构建了一个新的社交媒体时间流行度预测基准,即SMTPD,并提出了一个用于时间流行度预测的基线框架。通过数据分析和实验,验证了时间对齐和早期流行度在社会媒体流行度预测中的重要作用。该数据集适用于内容优化、数字营销和在线广告等应用场景,对于深入研究社交媒体流行度的时态动态以及开发更有效的预测模型具有重要意义。
衍生相关工作
SMTPD数据集的提出衍生了许多相关的研究工作。例如,一些研究工作基于SMTPD数据集提出了新的社交媒体流行度预测模型,这些模型在预测准确性和泛化能力方面取得了显著的提升。此外,一些研究工作还基于SMTPD数据集研究了社交媒体流行度的时态动态和影响因素,为社交媒体流行度预测提供了新的理论依据和实验支持。SMTPD数据集的提出和应用,为社交媒体流行度预测领域的研究和发展做出了重要贡献。
数据集最近研究
最新研究方向
在社交媒体领域,内容的热度预测对于内容优化、数字营销和在线广告等方面具有重要的应用价值。然而,现有的研究大多忽略了流行度预测与时间对齐的整合。针对这一问题,SMTPD数据集应运而生。SMTPD是一个基于YouTube的多语言和多模态内容构建的新社交媒体时间流行度预测基准,旨在解决现有数据集在多模态数据不足、语言多样性有限以及缺乏一致的时间线等问题。SMTPD数据集的构建不仅有助于深化对社交媒体流行度时间动态的理解,而且为开发更有效的预测模型提供了新的思路。
相关研究论文
  • 1
    SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity杭州电子科技大学, 天津大学, 北京大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作