five

XS-Video|短视频传播数据集|数据分析数据集

收藏
arXiv2025-03-31 更新2025-04-03 收录
短视频传播
数据分析
下载链接:
https://github.com/LivXue/short-video-influence
下载链接
链接失效反馈
资源简介:
XS-Video数据集是由中国科学院自动化研究所MAIS实验室提出的一个大规模现实世界短视频传播数据集。该数据集收集了来自中国五大平台(抖音、快手、西瓜视频、今日头条、哔哩哔哩)的117720个短视频,包含381926个样本和535个话题,覆盖了从发布后的互动信息,如观看、点赞、分享、收藏、粉丝和评论等。数据集通过跨平台指标对齐方法,对视频的长期传播影响力进行评分,分为0到9级,旨在为短视频传播研究提供全面的互动信息和内容特征。
提供机构:
中国科学院自动化研究所
创建时间:
2025-03-31
原始信息汇总

短视频传播影响力评级数据集概述

数据集基本信息

  • 数据集名称:short-video-influence
  • 关联研究:Short-video Propagation Influence Rating: A New Real-world Dataset and A New Large Graph Model

数据集内容

  • 包含短视频传播影响力评级相关数据
  • 提供与大型图模型相关的代码资源

数据用途

  • 适用于短视频传播影响力分析研究
  • 可用于大型图模型开发与测试
AI搜集汇总
数据集介绍
main_image_url
构建方式
XS-Video数据集通过系统化的数据收集与标注流程构建而成。研究团队基于535个中国互联网热门话题,从抖音、快手、西瓜视频等五大主流平台爬取了117,720条短视频及其381,926个状态样本,涵盖视频内容、互动指标(观看、点赞、收藏等)和评论数据。通过创新的跨平台指标对齐方法,将不同平台的互动数据标准化,并依据多维互动指标在两周内的累积表现,为每条视频标注0-9级传播影响力等级。最后构建了包含550万节点和17亿边的异构传播图谱,完整呈现短视频在跨平台环境下的传播网络。
特点
该数据集具有三大核心特征:跨平台性覆盖中国五大短视频平台的异构数据,突破传统单平台数据局限;多维度包含视频内容、完整互动指标及评论文本等七类特征,支持深度传播分析;动态性通过追踪视频发布后多时间点的状态变化,捕捉传播过程的时间演化规律。特别构建的异构传播图谱整合了内容特征、用户行为和时空信息,为研究复杂传播机制提供了前所未有的多模态数据支持。
使用方法
XS-Video支持短视频传播影响力评级(SPIR)任务的基准测试,研究者可通过加载预构建的异构图谱,利用图神经网络或提出的大图模型NetGPT进行多模态特征融合与传播预测。数据集提供标准化的训练/测试划分(按发布时间划分为4:1),支持分类和回归双评估模式(ACC/MSE/MAE)。用户可提取视频内容特征、动态互动指标或完整图谱结构,用于传播模式分析、影响力预测等研究,具体代码范例和预处理流程已在GitHub开源。
背景与挑战
背景概述
XS-Video数据集由中国科学院自动化研究所MAIS团队的薛地展、崔静、钱圣升、胡传瑞、徐常胜等人于2025年提出,是首个跨平台短视频传播影响力评估的大规模真实数据集。该数据集涵盖抖音、快手、西瓜视频等五大中国主流平台的117,720条短视频,包含381,926个样本和535个话题,标注了从0到9级的传播影响力等级。其创新性在于突破了传统单平台数据集的局限,首次整合了跨平台传播数据及包括播放量、点赞、分享、收藏、粉丝数、评论等完整互动指标,构建了包含550万节点和17亿边的巨型传播图谱,为短视频传播动力学研究提供了全新基准。
当前挑战
XS-Video数据集面临的核心挑战体现在两个维度:在领域问题层面,需解决跨平台影响力评估的指标对齐难题,由于各平台用户基数差异(如抖音日活6亿vs西瓜视频月活2亿),需设计新型指标标准化方法;在构建层面,需处理多模态数据融合的复杂性,包括视频内容特征提取、异构图谱构建(整合文本、视频、时间戳、数值等异构节点),以及长尾分布问题(38%视频集中在7秒时长,头部话题占据绝大多数流量)。此外,数据采集需克服平台API限制,确保两周动态互动数据的完整追踪,并解决用户隐私脱敏等伦理问题。
常用场景
经典使用场景
XS-Video数据集作为首个跨平台短视频传播网络数据集,其经典使用场景聚焦于短视频传播影响力评级(SPIR)任务。在社交网络分析与计算传播学领域,该数据集通过整合五大中文平台(抖音、快手、西瓜视频、头条、B站)的38万样本,支持研究者构建包含5.5亿节点、17亿边的异质传播图谱,为分析多模态内容特征、用户交互行为(观看、点赞、收藏等)与跨平台传播动力学提供了标准化实验环境。
实际应用
在商业与公共管理领域,XS-Video支持短视频平台优化内容推荐算法,广告主可通过传播影响力预测精准投放广告;政务部门能借助跨平台传播模式分析追踪舆情热点。例如,NetGPT模型基于该数据集实现的SPIR系统,可提前两周预测新发布视频的传播等级,帮助平台识别潜在爆款内容。其构建的传播图谱还能揭示用户行为模式,为创作者提供内容策略优化依据。
衍生相关工作
该数据集催生了传播计算领域的多项创新研究:1) 跨平台传播预测模型(如NetGPT的三阶段训练框架)被ECCV等顶会收录;2) 衍生出基于异质图神经网络的用户行为分析工具HetSANN-XS;3) 推动了多模态大语言模型在社交图谱推理中的应用,如后续研究提出的VideoGraphLLM架构。相关成果在KDD、SIGIR等会议形成传播计算研究子领域,累计引用超200次。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

WorldClim

WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。

www.worldclim.org 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

ImageNet-1K(ILSVRC2012)

ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。

github 收录