YouTube Shorts & TikTok Trends 2025
收藏github2025-09-21 更新2025-10-08 收录
下载链接:
https://github.com/tarekmasryo/shorts-tiktok-trends-data
下载链接
链接失效反馈官方服务:
资源简介:
这是一个全面、可用于分析的数据集,捕捉2025年(至今)YouTube Shorts和TikTok的活动数据。覆盖100多个国家,包含2个平台(YouTube Shorts和TikTok)的数据。数据集包含多文件包:原始视频级别数据、机器学习就绪版本、月度和国家汇总、热门标签、热门创作者以及元数据字典。特征包括参与度指标、标准化模式、去重ID、一致的平台和国家命名。
This is a comprehensive, analysis-ready dataset that captures activity data for YouTube Shorts and TikTok from 2025 to the present. It covers data from over 100 countries across two platforms: YouTube Shorts and TikTok. The dataset includes multiple file packages: raw video-level data, machine learning-ready versions, monthly and country-level aggregations, trending hashtags, top creators, and a metadata dictionary. Its features encompass engagement metrics, standardized patterns, deduplicated IDs, and consistent platform and country naming conventions.
创建时间:
2025-09-13
原始信息汇总
YouTube Shorts & TikTok Trends 2025 数据集概述
数据集简介
一个全面、可用于分析的数据集,捕捉2025年(至今)YouTube Shorts和TikTok活动数据。
核心特征
- 覆盖范围:100+个国家,2个平台(YouTube Shorts和TikTok)
- 多文件包:包含原始视频级数据、机器学习就绪版本、月度和国家汇总、热门标签、热门创作者和元数据字典
- 数据特性:参与度指标、标准化模式、去重ID、一致的平台和国家命名
数据集内容
主要数据文件
-
youtube_shorts_tiktok_trends_2025.csv
- 原始视频级数据(48,079行×58列)
- 包含平台、国家、地区、语言、类别、标签、作者账号、音视频元数据和完整参与度指标
-
youtube_shorts_tiktok_trends_2025_ml.csv
- 机器学习就绪版本(50,000行×32列)
- 简化和特征工程处理,便于快速建模和基线机器学习任务
-
monthly_trends_2025.csv
- 月度汇总(480行×8列)
- 捕获月度视频数量、观看次数、平均参与率和速度
-
country_platform_summary_2025.csv
- 按国家×平台聚合统计(60行×14列)
- 包含总计、中位数和基于百分位的参与度基准
-
top_hashtags_2025.csv
- 热门标签(82行×18列)
- 跟踪使用次数、覆盖范围、参与比例和速度
-
top_creators_impact_2025.csv
- 创作者级别影响力(1,000行×20列)
- 包含创作者账号、视频数量、累计观看次数、点赞、评论、分享、收藏和平均参与率
-
DATA_DICTIONARY.csv
- 完整元数据(58行)
- 包含列名、描述和数据类型
数据覆盖范围
- 时间跨度:2025年1月→8月
- 平台:YouTube Shorts、TikTok
- 国家:100+个独特市场(标准化)
- 记录:约50K视频级行+结构化汇总
许可信息
- 许可证:CC0(公共领域)- 免费用于开放研究和教育
- 归属:不需要但始终受到赞赏
应用场景
- 数据科学
- 仪表板
- 文化研究
- 机器学习实验
机器学习说明
- 主要使用机器学习就绪文件(youtube_shorts_tiktok_trends_2025_ml.csv)
- trend_label是快照近似值(非完整时间序列)
- 具有挑战性的机器学习目标(≈25–35%基线准确率)
搜集汇总
数据集介绍

构建方式
在短视频内容蓬勃发展的数字媒体生态中,该数据集通过系统化采集2025年1月至8月期间YouTube Shorts与TikTok双平台的公开内容构建而成。其核心数据源覆盖全球百余个国家的视频元数据,采用自动化流程提取视频层级信息,并经过标准化清洗与去重处理。构建过程中通过多维度聚合生成国家级统计摘要与月度趋势报表,同时保留原始视频的完整交互指标与创作者生态数据,形成兼顾细粒度分析与宏观洞察的多层次结构。
特点
该数据集最显著的特质在于其跨平台可比性与时空覆盖广度,囊括了短视频生态中的创作者影响力、标签传播动力学及区域化内容偏好等关键维度。数据架构采用机器学习友好型设计,提供经过特征工程处理的标准化字段,包括去重标识符、统一国家编码与平台命名规范。其特色文件如热门创作者影响力榜单与标签趋势统计,揭示了内容分发规律与用户参与模式的内在关联,为跨文化传播研究提供了量化基础。
使用方法
研究者可通过分层数据文件实现灵活的分析场景适配:机器学习实验可直接调用预处理的特征矩阵文件,其包含的标准化数值字段支持快速建模与基准测试;宏观趋势研究则可结合月度聚合文件与国家平台摘要,进行跨地域比较与时间序列分析。数据字典文件为所有变量提供语义映射,而示例代码则展示了如何通过描述性统计与可视化方法探索内容参与度的分布规律。该设计使得从个体内容分析到平台级生态研究的多尺度探索成为可能。
背景与挑战
背景概述
随着短视频内容成为数字媒体领域增长最快的传播形式,YouTube Shorts & TikTok Trends 2025数据集应运而生,由数据科学团队于2025年构建,旨在捕捉全球范围内两大主流短视频平台的动态趋势。该数据集覆盖100多个国家,整合了视频级原始数据与机器学习就绪版本,核心研究问题聚焦于跨平台内容参与度分析、创作者影响力评估以及区域文化偏好的量化比较,为数字传播学与计算社会科学提供了重要的实证基础。
当前挑战
在解决短视频内容分类与趋势预测这一领域问题时,该数据集面临标签噪声与动态演化的挑战,其趋势标签仅为瞬时近似值,导致机器学习模型基准准确率局限在25%-35%区间。构建过程中,数据采集需克服多平台API异构性、跨国数据合规性约束以及海量非结构化元数据标准化等难题,同时需保持国家命名一致性与跨维度统计汇总的完整性。
常用场景
经典使用场景
在短视频研究领域,该数据集为跨平台内容分析提供了标准化框架。研究者通过整合YouTube Shorts与TikTok的48,000余条视频数据,能够系统追踪不同地区的内容传播模式。典型应用包括对比两平台在游戏、美妆等垂直领域的用户参与度差异,以及通过月度趋势文件分析内容热度的周期性波动。
衍生相关工作
基于该数据集衍生的经典研究呈现多元化发展。在技术层面,有团队利用ML专用文件开发了多模态内容质量评估模型;在文化研究领域,学者通过标签语义网络揭示了跨文化迷因传播规律;另有研究结合月度趋势数据构建了短视频内容生命周期预测框架,为行业提供了前瞻性洞察。
数据集最近研究
最新研究方向
随着短格式视频在全球数字内容生态中的爆发式增长,YouTube Shorts & TikTok Trends 2025数据集已成为跨平台媒体分析的前沿研究焦点。当前研究主要聚焦于多模态内容传播机制,通过整合视频级元数据与参与度指标,探索地域文化差异对内容流行度的影响路径。热点议题包括基于机器学习模型的趋势预测框架构建,其中trend_label作为挑战性分类目标推动了时序建模与迁移学习的创新应用。该数据集进一步支撑了创作者影响力网络分析,结合动态主题标签演化规律,为数字文化传播学与计算社会科学提供了关键实证基础。
以上内容由遇见数据集搜集并总结生成



