five

XS-Video|短视频传播数据集|数据分析数据集

收藏
arXiv2025-03-31 更新2025-04-03 收录
短视频传播
数据分析
下载链接:
https://github.com/LivXue/short-video-influence
下载链接
链接失效反馈
资源简介:
XS-Video数据集是由中国科学院自动化研究所MAIS实验室提出的一个大规模现实世界短视频传播数据集。该数据集收集了来自中国五大平台(抖音、快手、西瓜视频、今日头条、哔哩哔哩)的117720个短视频,包含381926个样本和535个话题,覆盖了从发布后的互动信息,如观看、点赞、分享、收藏、粉丝和评论等。数据集通过跨平台指标对齐方法,对视频的长期传播影响力进行评分,分为0到9级,旨在为短视频传播研究提供全面的互动信息和内容特征。
提供机构:
中国科学院自动化研究所
创建时间:
2025-03-31
原始信息汇总

短视频传播影响力评级数据集概述

数据集基本信息

  • 数据集名称:short-video-influence
  • 关联研究:Short-video Propagation Influence Rating: A New Real-world Dataset and A New Large Graph Model

数据集内容

  • 包含短视频传播影响力评级相关数据
  • 提供与大型图模型相关的代码资源

数据用途

  • 适用于短视频传播影响力分析研究
  • 可用于大型图模型开发与测试
AI搜集汇总
数据集介绍
main_image_url
构建方式
XS-Video数据集通过系统化的数据收集与标注流程构建而成。研究团队基于535个中国互联网热门话题,从抖音、快手、西瓜视频等五大主流平台爬取了117,720条短视频及其381,926个状态样本,涵盖视频内容、互动指标(观看、点赞、收藏等)和评论数据。通过创新的跨平台指标对齐方法,将不同平台的互动数据标准化,并依据多维互动指标在两周内的累积表现,为每条视频标注0-9级传播影响力等级。最后构建了包含550万节点和17亿边的异构传播图谱,完整呈现短视频在跨平台环境下的传播网络。
特点
该数据集具有三大核心特征:跨平台性覆盖中国五大短视频平台的异构数据,突破传统单平台数据局限;多维度包含视频内容、完整互动指标及评论文本等七类特征,支持深度传播分析;动态性通过追踪视频发布后多时间点的状态变化,捕捉传播过程的时间演化规律。特别构建的异构传播图谱整合了内容特征、用户行为和时空信息,为研究复杂传播机制提供了前所未有的多模态数据支持。
使用方法
XS-Video支持短视频传播影响力评级(SPIR)任务的基准测试,研究者可通过加载预构建的异构图谱,利用图神经网络或提出的大图模型NetGPT进行多模态特征融合与传播预测。数据集提供标准化的训练/测试划分(按发布时间划分为4:1),支持分类和回归双评估模式(ACC/MSE/MAE)。用户可提取视频内容特征、动态互动指标或完整图谱结构,用于传播模式分析、影响力预测等研究,具体代码范例和预处理流程已在GitHub开源。
背景与挑战
背景概述
XS-Video数据集由中国科学院自动化研究所MAIS团队的薛地展、崔静、钱圣升、胡传瑞、徐常胜等人于2025年提出,是首个跨平台短视频传播影响力评估的大规模真实数据集。该数据集涵盖抖音、快手、西瓜视频等五大中国主流平台的117,720条短视频,包含381,926个样本和535个话题,标注了从0到9级的传播影响力等级。其创新性在于突破了传统单平台数据集的局限,首次整合了跨平台传播数据及包括播放量、点赞、分享、收藏、粉丝数、评论等完整互动指标,构建了包含550万节点和17亿边的巨型传播图谱,为短视频传播动力学研究提供了全新基准。
当前挑战
XS-Video数据集面临的核心挑战体现在两个维度:在领域问题层面,需解决跨平台影响力评估的指标对齐难题,由于各平台用户基数差异(如抖音日活6亿vs西瓜视频月活2亿),需设计新型指标标准化方法;在构建层面,需处理多模态数据融合的复杂性,包括视频内容特征提取、异构图谱构建(整合文本、视频、时间戳、数值等异构节点),以及长尾分布问题(38%视频集中在7秒时长,头部话题占据绝大多数流量)。此外,数据采集需克服平台API限制,确保两周动态互动数据的完整追踪,并解决用户隐私脱敏等伦理问题。
常用场景
经典使用场景
XS-Video数据集作为首个跨平台短视频传播网络数据集,其经典使用场景聚焦于短视频传播影响力评级(SPIR)任务。在社交网络分析与计算传播学领域,该数据集通过整合五大中文平台(抖音、快手、西瓜视频、头条、B站)的38万样本,支持研究者构建包含5.5亿节点、17亿边的异质传播图谱,为分析多模态内容特征、用户交互行为(观看、点赞、收藏等)与跨平台传播动力学提供了标准化实验环境。
实际应用
在商业与公共管理领域,XS-Video支持短视频平台优化内容推荐算法,广告主可通过传播影响力预测精准投放广告;政务部门能借助跨平台传播模式分析追踪舆情热点。例如,NetGPT模型基于该数据集实现的SPIR系统,可提前两周预测新发布视频的传播等级,帮助平台识别潜在爆款内容。其构建的传播图谱还能揭示用户行为模式,为创作者提供内容策略优化依据。
衍生相关工作
该数据集催生了传播计算领域的多项创新研究:1) 跨平台传播预测模型(如NetGPT的三阶段训练框架)被ECCV等顶会收录;2) 衍生出基于异质图神经网络的用户行为分析工具HetSANN-XS;3) 推动了多模态大语言模型在社交图谱推理中的应用,如后续研究提出的VideoGraphLLM架构。相关成果在KDD、SIGIR等会议形成传播计算研究子领域,累计引用超200次。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录