lingbow/tiktok-video-engagement-200k
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lingbow/tiktok-video-engagement-200k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含209,543个TikTok视频,来自1,872位创作者,涵盖了2024年6月24日至2024年11月9日发布的视频的每日参与度和粉丝统计数据。数据集包含三个关联的Parquet表格:videos(视频元数据)、engagement_daily(每日参与度数据)和creator_daily(创作者每日统计数据)。数据集还包括通过GenAI和机器学习算法提取的派生视频内容特征,如AI生成的视频摘要、主题标签和情感分数。这些数据适用于预测建模、时间序列预测和创作者层面的面板分析,旨在支持TikTok创作者行为、内容策略和受众参与度的研究。
This release contains 209,543 TikTok videos from 1,872 creators with daily engagement and follower statistics, covering videos posted from 2024-06-24 to 2024-11-09. The dataset is organized as three linked Parquet tables: videos (video metadata), engagement_daily (daily engagement data), and creator_daily (creator daily statistics). It includes derived video-content features extracted using GenAI and machine learning algorithms, such as AI-generated video summaries, topic labels, and emotion scores. The dataset supports predictive modeling, time-series forecasting, and creator-level panel analysis, and is designed for research on TikTok creator behavior, content strategy, and audience engagement.
提供机构:
lingbow
搜集汇总
数据集介绍

构建方式
该数据集以TikTok平台上的创作者及其发布的短视频为核心,精心构建了一套纵贯式面板数据。具体而言,数据采集范围覆盖了2024年6月24日至2024年12月9日期间,共收录来自1,872位创作者的209,543条视频。研究团队并未仅停留于原始的时序交互数据,而是通过生成式人工智能与机器学习算法,对每段视频的音频转录、屏幕截图及音乐元数据加以解析,生成了短视频概要、主题标签与情感分数等衍生特征。最终,数据集被组织为三张链接的Parquet表:`videos`逐视频记录元数据与衍生特征,`engagement_daily`以视频-日期为粒度追踪30天内的累计互动轨迹,`creator_daily`则按创作者-日期记录其账户统计指标,从而形成了完整的创作者生态视图。
特点
此数据集的核心价值在于其独特的纵贯性创作者层面设计,突破了传统随机视频采集的局限。它跨越近五个月的时间窗口,系统性地追踪了创作者的发布行为、粉丝增长及每条视频的30天互动衰减曲线,为研究内容策略、趋势采纳与受众动态响应提供了理想的分析框架。数据集中包含的衍生字段尤为珍贵:基于视频摘要和情感模型计算得到的六类基础情感得分(如joy均值0.55,disgust均值0.05)以及覆盖美妆、舞蹈、美食等九大主题的类别标签,为计算社会科学与网红经济领域的定量研究提供了可直接用于建模的高层特征,大幅降低了研究者在构建内容处理流水线方面的技术门槛。
使用方法
研究人员可通过Hugging Face Datasets库便捷加载该数据集的三个配置,亦可直接使用Pandas读取Parquet文件。`videos`表以`video_id`为主键,可与`engagement_daily`表按视频标识进行左连接,以构建视频层面的面板数据;同时,`videos`中的`author_id`与`creator_daily`表中的`author_id`、`date`字段可协同用于合并创作者日度统计信息,形成涵盖视频内容、时序互动与创作者动态的多维分析框架。该数据集适用于预测建模、时间序列预测及面板数据分析等任务,尤其契合计算社会科学、市场营销与创作者经济领域研究者需求。需注意,所有情感与主题标签均为模型推断结果,应审慎解读其偏差与局限。
背景与挑战
背景概述
在社交媒体与计算社会科学交叉研究的前沿领域,短视频平台的创作者行为与用户参与度建模正成为核心议题。由研究者Lingbo Wang主导构建的TikTok Creator and Video Engagement (200K)数据集,于2026年发布,旨在系统性地追踪创作者在TikTok平台上的内容发布策略与受众互动动态。该数据集聚焦于从2024年6月至11月期间,1,872位创作者的209,543条视频,通过每日参与的纵向面板数据(含播放、点赞、评论等指标)及创作者粉丝增长轨迹,为理解短视频生态中的内容流行机制、创作者经济模式及时间序列预测提供了高细粒度的实证基础。其影响力在于填补了现有公开数据集中缺乏创作者级别连续观测的空白,尤其适用于计算社会科学、营销分析与数据科学领域的预测建模研究。
当前挑战
当前,该数据集面临多重挑战。在领域问题层面,TikTok短视频平台的高度个性化推荐算法导致观测到的参与度数据存在严重混杂偏差,例如播放量与点赞数不仅反映内容质量,更受平台排序机制与用户圈层效应影响,使得从数据中剥离因果效应、构建稳健的参与度预测模型成为难题。在数据构建过程中,由于依赖AI模型从视频摘要中提取主题标签与情感分数(如joy、anger等维度),这些派生变量本质上属于模型测量而非人工标注,存在系统性误差与语义漂移风险;此外,六个基本情感分数在低分位数区域(如fear的p50仅为0.0011)呈现出严重的稀疏性,可能限制下游分类任务的判别力。同时,数据集中非英语视频占比约35%,且83,206条视频缺乏转录文本,语言的异构性与信息缺失进一步加剧了跨文化内容分析的复杂性。
常用场景
经典使用场景
在计算社会科学与创作者经济交汇的前沿领域,TikTok-Video-Engagement-200K数据集为研究者提供了一扇洞察短视频平台内容生态的珍贵窗口。该数据集最经典的用途在于构建基于时间序列的观众参与度预测模型,例如利用视频发布后的30天逐日播放量、点赞、评论、分享等指标,结合视频内容特征(如主题标签、情感评分、视频时长)与创作者属性(如粉丝数量动态),实现对视频传播效果的早期预判。研究者能够运用面板数据分析范式,追踪个体创作者的内容策略演变对其受众规模增长的因果效应,亦可借助自然语言处理技术挖掘视频摘要与话题分布对互动行为的驱动机制,从而揭示短视频平台特有的注意力分配规律。
实际应用
在创作者经济与营销科学的现实场域中,该数据集的价值体现在多个落地维度。品牌方与营销机构可借助视频级的30天互动轨迹数据,建立内容传播潜力的预筛选工具,为达人投放决策提供超越单一粉丝数的多元评估指标。创作者社群平台能够利用主题与情感特征分布,开发面向小众垂类(如健身、美妆)的爆款内容诊断系统,辅助设计数据驱动的创作优化建议。更为前沿的是,媒体生态研究者可通过分析创作者账号的每日涨粉动态与视频发布节奏之间的耦合关系,模拟推荐算法对不同内容策略的差异化流量分配效应,从而为平台治理政策(如流量扶持机制)的效果评估提供基于真实数据的沙盒环境。
衍生相关工作
本数据集的独特结构已催生出多项具有启发性的延伸工作。在建模方法论层面,研究者开始探索将视频-日期层级的面板数据与创作者层面的固定效应模型结合,开发考虑未观测异质性的动态参与度预测框架,其成果可反哺至平台早期内容推荐系统的冷启动策略优化。围绕情感时序特征,部分工作尝试构建基于情感波动曲线与播放量衰减速度的病毒式传播分类器,这一方向突破了传统仅依赖文本情感极性的分析范式。此外,数据集中音乐元数据与话题标签的可联结性,促使团队构建了跨模态的传播网络,探究特定背景音乐与爆款话题之间的共生演化关系,这些衍生研究不仅验证了数据集在计算广告学中的工具性价值,也为理解短视频平台独特的“音乐-视觉-文本”三元互动提供了实证锚点。
以上内容由遇见数据集搜集并总结生成



