XS-Video

Name: XS-Video
Creator: 中国科学院自动化研究所
Published: 2025-03-31 13:53:15
License: 暂无描述

arXiv2025-03-31 更新2025-04-03 收录

下载链接：

https://github.com/LivXue/short-video-influence

下载链接

链接失效反馈

官方服务：

资源简介：

XS-Video数据集是由中国科学院自动化研究所MAIS实验室提出的一个大规模现实世界短视频传播数据集。该数据集收集了来自中国五大平台（抖音、快手、西瓜视频、今日头条、哔哩哔哩）的117720个短视频，包含381926个样本和535个话题，覆盖了从发布后的互动信息，如观看、点赞、分享、收藏、粉丝和评论等。数据集通过跨平台指标对齐方法，对视频的长期传播影响力进行评分，分为0到9级，旨在为短视频传播研究提供全面的互动信息和内容特征。

XS-Video Dataset is a large-scale real-world short video propagation dataset proposed by the MAIS Laboratory of the Institute of Automation, Chinese Academy of Sciences. This dataset collects 117,720 short videos from five major Chinese platforms including Douyin, Kuaishou, Xigua Video, Jinri Toutiao and Bilibili, containing 381,926 samples and 535 topics. It covers post-release interaction information such as views, likes, shares, collections, follower counts and comments. The dataset scores the long-term propagation influence of videos via a cross-platform metric alignment method, with scores ranging from 0 to 9. It aims to provide comprehensive interaction information and content features for short video propagation research.

提供机构：

中国科学院自动化研究所

创建时间：

2025-03-31

原始信息汇总

短视频传播影响力评级数据集概述

数据集基本信息

数据集名称：short-video-influence
关联研究：Short-video Propagation Influence Rating: A New Real-world Dataset and A New Large Graph Model

数据集内容

包含短视频传播影响力评级相关数据
提供与大型图模型相关的代码资源

数据用途

适用于短视频传播影响力分析研究
可用于大型图模型开发与测试

搜集汇总

数据集介绍

构建方式

XS-Video数据集通过系统化的数据收集与标注流程构建而成。研究团队基于535个中国互联网热门话题，从抖音、快手、西瓜视频等五大主流平台爬取了117,720条短视频及其381,926个状态样本，涵盖视频内容、互动指标（观看、点赞、收藏等）和评论数据。通过创新的跨平台指标对齐方法，将不同平台的互动数据标准化，并依据多维互动指标在两周内的累积表现，为每条视频标注0-9级传播影响力等级。最后构建了包含550万节点和17亿边的异构传播图谱，完整呈现短视频在跨平台环境下的传播网络。

特点

该数据集具有三大核心特征：跨平台性覆盖中国五大短视频平台的异构数据，突破传统单平台数据局限；多维度包含视频内容、完整互动指标及评论文本等七类特征，支持深度传播分析；动态性通过追踪视频发布后多时间点的状态变化，捕捉传播过程的时间演化规律。特别构建的异构传播图谱整合了内容特征、用户行为和时空信息，为研究复杂传播机制提供了前所未有的多模态数据支持。

使用方法

XS-Video支持短视频传播影响力评级（SPIR）任务的基准测试，研究者可通过加载预构建的异构图谱，利用图神经网络或提出的大图模型NetGPT进行多模态特征融合与传播预测。数据集提供标准化的训练/测试划分（按发布时间划分为4:1），支持分类和回归双评估模式（ACC/MSE/MAE）。用户可提取视频内容特征、动态互动指标或完整图谱结构，用于传播模式分析、影响力预测等研究，具体代码范例和预处理流程已在GitHub开源。

背景与挑战

背景概述

XS-Video数据集由中国科学院自动化研究所MAIS团队的薛地展、崔静、钱圣升、胡传瑞、徐常胜等人于2025年提出，是首个跨平台短视频传播影响力评估的大规模真实数据集。该数据集涵盖抖音、快手、西瓜视频等五大中国主流平台的117,720条短视频，包含381,926个样本和535个话题，标注了从0到9级的传播影响力等级。其创新性在于突破了传统单平台数据集的局限，首次整合了跨平台传播数据及包括播放量、点赞、分享、收藏、粉丝数、评论等完整互动指标，构建了包含550万节点和17亿边的巨型传播图谱，为短视频传播动力学研究提供了全新基准。

当前挑战

XS-Video数据集面临的核心挑战体现在两个维度：在领域问题层面，需解决跨平台影响力评估的指标对齐难题，由于各平台用户基数差异（如抖音日活6亿vs西瓜视频月活2亿），需设计新型指标标准化方法；在构建层面，需处理多模态数据融合的复杂性，包括视频内容特征提取、异构图谱构建（整合文本、视频、时间戳、数值等异构节点），以及长尾分布问题（38%视频集中在7秒时长，头部话题占据绝大多数流量）。此外，数据采集需克服平台API限制，确保两周动态互动数据的完整追踪，并解决用户隐私脱敏等伦理问题。

常用场景

经典使用场景

XS-Video数据集作为首个跨平台短视频传播网络数据集，其经典使用场景聚焦于短视频传播影响力评级（SPIR）任务。在社交网络分析与计算传播学领域，该数据集通过整合五大中文平台（抖音、快手、西瓜视频、头条、B站）的38万样本，支持研究者构建包含5.5亿节点、17亿边的异质传播图谱，为分析多模态内容特征、用户交互行为（观看、点赞、收藏等）与跨平台传播动力学提供了标准化实验环境。

实际应用

在商业与公共管理领域，XS-Video支持短视频平台优化内容推荐算法，广告主可通过传播影响力预测精准投放广告；政务部门能借助跨平台传播模式分析追踪舆情热点。例如，NetGPT模型基于该数据集实现的SPIR系统，可提前两周预测新发布视频的传播等级，帮助平台识别潜在爆款内容。其构建的传播图谱还能揭示用户行为模式，为创作者提供内容策略优化依据。

衍生相关工作

该数据集催生了传播计算领域的多项创新研究：1) 跨平台传播预测模型（如NetGPT的三阶段训练框架）被ECCV等顶会收录；2) 衍生出基于异质图神经网络的用户行为分析工具HetSANN-XS；3) 推动了多模态大语言模型在社交图谱推理中的应用，如后续研究提出的VideoGraphLLM架构。相关成果在KDD、SIGIR等会议形成传播计算研究子领域，累计引用超200次。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集