five

lingbow/tiktok-video-engagement-1m

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lingbow/tiktok-video-engagement-1m
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自4,926位创作者的1,035,817个TikTok视频,涵盖了2024-06-09至2025-03-20期间发布的视频及其每日互动和粉丝统计数据。数据集由三个关联的Parquet表格组成:videos(视频元数据)、engagement_daily(每日视频互动数据)和creator_daily(创作者每日统计数据)。它支持对TikTok创作者行为、内容策略、趋势采用和观众互动随时间变化的研究。数据集适用于预测建模、时间序列预测和创作者层面的面板分析,旨在为计算社会科学、市场营销、创作者经济研究、商业分析和数据科学领域的研究人员、学生和数据从业者提供服务。

This release contains 1,035,817 TikTok videos from 4,926 creators with daily engagement and follower statistics, covering videos posted from 2024-06-09 to 2025-03-20. The dataset is organized as three linked Parquet tables: videos (video metadata), engagement_daily (daily video engagement data), and creator_daily (creator daily statistics). It supports research on TikTok creator behavior, content strategy, trend adoption, and audience engagement over time. The dataset can be used for predictive modeling, time-series forecasting, and creator-level panel analysis. It is designed for researchers, students, and data practitioners working in computational social science, marketing, creator-economy research, business analytics, and data science.
提供机构:
lingbow
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统性地追踪4926位TikTok创作者在2024年6月9日至2025年3月20日期间发布的逾百万条短视频,构建了涵盖视频元数据、日频互动及创作者面板数据的多维度纵向资源。数据组织为三张互相关联的Parquet表格:主表存储每条视频的19项属性(如时长、描述语言、标签、音乐信息);互动表记录视频发布后30天内逐日更新的累计播放、点赞、评论、分享及收藏计数;创作者表则追踪每日粉丝数、关注数及总获赞量。三表通过视频标识符与创作者标识符实现精确关联,形成可进行面板数据分析的结构化框架。
特点
该数据集的核心优势在于其纵向追踪设计,突破了传统随机采样数据集的静态局限。基于超过2700万条视频-日观测记录,研究者可获得每条视频发布后30天内的完整互动轨迹,结合创作者视角的粉丝增长动态,支持对内容策略、趋势采纳及观众参与模式的时序分析。数据集覆盖面广,涵盖超过103万条视频,其中半数以上为英语内容,累计揭示逾458万条视频-标签关联关系,为计算社会科学、创作者经济及营销研究提供了兼具深度与广度的实证基础。
使用方法
用户可通过Hugging Face Datasets库便捷加载数据,调用`load_dataset`函数分别导入视频、日互动及创作者三个配置模块,每个模块均以Pandas兼容的DataFrame格式返回。进一步地,利用`video_id`字段可将视频元数据与互动表进行左连接,再以`author_id`和`date`字段关联创作者日统计信息,从而构建完整的视频-创作者面板数据。此外,也可直接通过Pandas读取Parquet文件,基础路径指向Hugging Face数据集仓库,实现轻量化本地分析。
背景与挑战
背景概述
TikTok作为全球领先的短视频社交平台,其创作者经济与内容传播机制已成为计算社会科学与商业分析领域的重要研究对象。2026年,由Lingbo Wang构建的TikTok Creator and Video Engagement (1M)数据集正式发布,旨在填补现有研究对短视频平台纵向创作者行为与观众参与动态追踪的空白。该数据集收录了来自4,926位创作者的超103万条视频,覆盖2024年6月至2025年3月期间的日常参与度与粉丝统计,并以面板数据结构呈现每条视频发布后30天的互动轨迹。相较于海量随机采样的TikTok视频集合,此数据通过创作者与视频的多层级关联设计,支持时间序列预测、创作者层级面板分析及特征提取等任务,为理解短形式视频的内容策略、趋势采纳与观众行为演化提供了独特的数据基础。
当前挑战
该数据集旨在应对短视频领域系统性量化研究的双重挑战。一方面,短视频平台的内容生态高度动态,其推荐算法与用户行为相互作用导致参与度指标(如播放量、点赞、评论、分享)呈现极端偏态分布,传统统计模型难以捕捉此类非平稳序列的演化规律。数据集面临的核心问题在于,如何从大规模面板数据中剥离平台干预、算法排序与真实用户兴趣的混淆效应,以实现对内容传播动力学的因果推断。另一方面,数据集构建过程中需应对多源异构数据的整合难题:跨视频元数据(如哈希标签、音乐标识)、每日参与度时序(最多30天)及创作者日度状态(粉丝数、关注数)三者需通过键关联实现无损连接,同时要确保缺失值、计数滞后与平台元数据标注不一致等数据质量问题在百亿级观测中得以控制,为后续研究提供可靠的分析基准。
常用场景
经典使用场景
在短视频平台内容生态的研究中,TikTok Creator and Video Engagement (1M) 数据集为学者提供了前所未有的纵向视角。其经典使用场景聚焦于创作者行为建模与视频表现预测,通过关联视频元数据、30天逐日互动指标及创作者日常粉丝动态,研究者能够构建多维度面板数据。这一设计使得追踪特定视频的点赞、分享、收藏等互动随时间的演化轨迹成为可能,从而揭示内容策略、发布时间与受众反馈之间的深层关联,是计算社会科学领域分析短视频传播规律的基石性资源。
解决学术问题
该数据集精准回应了当前社交媒体研究中几个悬而未解的学术难题。它解决了传统横截面数据无法捕捉内容生命周期与创作者成长动态的局限,使得研究者能够量化视频发布后互动指标的边际衰减模式。同时,通过链接创作者层面的粉丝增长与视频层面的即时反馈,它开创性地支持了对创作者经济中“爆款”效应与流量分发机制因果推断的研究。这一能力深化了学界对平台算法如何塑造内容生产策略及用户消费行为的理解,推动传播学与计算科学交叉领域向前迈进。
衍生相关工作
围绕此数据集已衍生出多项经典研究工作,显著推动了相关领域的发展。在预测建模方面,有研究者利用其逐日互动面板数据构建了基于Transformer的短视频热度预测框架,实现了对视频发布后30天内关键互动指标的高精度外推。在因果推断领域,学者借助创作者层面的面板数据,采用双重差分法量化了加入特定话题标签对创作者粉丝增长的阶段性影响。此外,该数据集还被用于训练多模态内容表征模型,通过联合视频描述文本与互动时序,探索内容特征与受众共鸣之间的映射关系,为个性化推荐系统的改进提供了坚实实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作