five

SMTPD|社交媒体分析数据集|流行度预测数据集

收藏
arXiv2025-03-06 更新2025-03-08 收录
社交媒体分析
流行度预测
下载链接:
https://github.com/zhuwei321/SMTPD
下载链接
链接失效反馈
资源简介:
SMTPD是由杭州电子科技大学、天津大学和北京大学的研究人员构建的一个新的社交媒体时序流行度预测基准数据集。该数据集通过观察主流社交媒体平台YouTube的多语言多模态内容,收集了超过282,000个样本,主要关注样本发布后30天内的流行度演变。数据集包含了视觉内容、文本内容、元数据和用户资料等多模态信息,并针对每种模态采用了不同的特征提取方法,以进行时序流行度预测。
提供机构:
杭州电子科技大学, 天津大学, 北京大学
创建时间:
2025-03-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
SMTPD数据集的构建方式主要围绕YouTube平台的多语言和多模态内容展开。研究者从YouTube上收集了超过402K的原始数据样本,经过数据清洗和筛选,最终形成了包含282K样本的数据集。数据集的构建不仅关注了帖子的发布时间,还记录了每个样本在发布后30天内的每日流行度信息,确保了时间线的一致性。此外,SMTPD数据集还包含了丰富的多模态内容,包括视觉内容、文本内容、元数据和用户资料等,为研究社交媒体流行度的动态变化提供了全面的数据支持。
特点
SMTPD数据集具有以下几个显著特点:首先,它是一个多语言的数据集,包含超过90种语言的样本,这使得研究者能够更好地理解不同语言环境下的社交媒体流行度动态。其次,SMTPD是一个多模态数据集,包含了视觉、文本、数值和分类等多种类型的数据,为多模态特征融合提供了丰富的数据基础。第三,SMTPD数据集强调了时间序列的一致性,所有样本的流行度数据都是基于相同的30天时间窗口收集的,这有助于研究者更准确地分析流行度随时间的变化趋势。最后,SMTPD数据集还包含了早期流行度的信息,这对于预测未来流行度具有重要的参考价值。
使用方法
使用SMTPD数据集进行社交媒体流行度预测时,研究者可以采用多模态特征提取和时序回归相结合的方法。首先,利用预训练模型和预处理方法对多模态内容进行特征提取,将视觉内容、文本内容、数值特征和分类特征转换为深度特征向量。然后,将这些特征向量输入到LSTM网络中进行时序编码,并使用多层感知器进行回归预测。在预测过程中,可以利用早期流行度的信息来提高预测的准确性。此外,研究者还可以根据SMTPD数据集的特点,设计不同的特征提取和回归模型,以适应不同的预测任务和场景。
背景与挑战
背景概述
随着互联网通信技术的迅猛发展,社交媒体已成为全球最受欢迎的媒体形式之一。社交媒体内容的热度预测对于内容优化、在线广告和数字营销等领域具有重要意义。现有的社交媒体热度预测数据集大多基于单一输出预测,缺乏时间对齐和多元语言支持。为了解决这些问题,SMTPD数据集应运而生。SMTPD数据集由杭州电子科技大学、天津大学和北京大学的研究团队创建,旨在构建一个多语言、多模态的时间序列热度预测基准。该数据集收集了YouTube平台上超过282K个样本,涵盖了多种语言和类别的内容,为研究社交媒体热度预测提供了宝贵的数据基础。
当前挑战
SMTPD数据集面临的挑战主要包括:1)社交媒体热度预测领域的时间对齐问题,即如何准确预测不同时间点的内容热度变化趋势;2)构建过程中遇到的挑战,包括多模态数据融合、多语言特征提取和时序热度预测等。为了应对这些挑战,SMTPD数据集采用了多模态特征提取框架和时序热度预测模型,并通过实验验证了该方法的有效性。然而,SMTPD数据集仍需进一步探索视频多帧信息、最大化利用语言多样性和更深入的多模态探索等方向,以进一步提高预测精度。
常用场景
经典使用场景
SMTPD数据集主要用于社交媒体流行度预测任务,该任务旨在预测社交媒体平台上帖子的流行度。通过对YouTube的多语言和多模态内容进行探索,构建了一个新的社交媒体时间流行度预测基准,即SMTPD,并提出了一个用于时间流行度预测的基线框架。通过数据分析和实验,验证了时间对齐和早期流行度在社会媒体流行度预测中的重要作用。该数据集适用于内容优化、数字营销和在线广告等应用场景,对于深入研究社交媒体流行度的时态动态以及开发更有效的预测模型具有重要意义。
衍生相关工作
SMTPD数据集的提出衍生了许多相关的研究工作。例如,一些研究工作基于SMTPD数据集提出了新的社交媒体流行度预测模型,这些模型在预测准确性和泛化能力方面取得了显著的提升。此外,一些研究工作还基于SMTPD数据集研究了社交媒体流行度的时态动态和影响因素,为社交媒体流行度预测提供了新的理论依据和实验支持。SMTPD数据集的提出和应用,为社交媒体流行度预测领域的研究和发展做出了重要贡献。
数据集最近研究
最新研究方向
在社交媒体领域,内容的热度预测对于内容优化、数字营销和在线广告等方面具有重要的应用价值。然而,现有的研究大多忽略了流行度预测与时间对齐的整合。针对这一问题,SMTPD数据集应运而生。SMTPD是一个基于YouTube的多语言和多模态内容构建的新社交媒体时间流行度预测基准,旨在解决现有数据集在多模态数据不足、语言多样性有限以及缺乏一致的时间线等问题。SMTPD数据集的构建不仅有助于深化对社交媒体流行度时间动态的理解,而且为开发更有效的预测模型提供了新的思路。
相关研究论文
  • 1
    SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity杭州电子科技大学, 天津大学, 北京大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Global Volcanism Program (GVP)

该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。

volcano.si.edu 收录

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。

github 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录