YouTube Shorts & TikTok Trends 2025 Dataset
收藏github2025-09-21 更新2025-09-22 收录
下载链接:
https://github.com/tarekmasryo/shorts-tiktok-trends-dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个全面的、可用于分析的数据集,捕捉2025年(至今)YouTube Shorts和TikTok活动。覆盖100多个国家,2个平台(YouTube Shorts和TikTok),包含多文件包:原始视频级数据、机器学习就绪版本、月度和国家汇总、热门标签、热门创作者以及元数据字典。
A comprehensive, analytics-ready dataset capturing YouTube Shorts and TikTok activity from 2025 to date. Spanning over 100 countries across two platforms (YouTube Shorts and TikTok), this dataset includes multiple file packages: raw video-level data, machine learning-ready datasets, monthly and country-level aggregations, trending hashtags, top creators, and a metadata dictionary.
创建时间:
2025-09-13
原始信息汇总
YouTube Shorts & TikTok Trends 2025 数据集概述
数据集简介
一个全面、可用于分析的数据集,捕捉2025年(至今)YouTube Shorts和TikTok活动。
覆盖范围
- 地理覆盖:100多个国家
- 平台覆盖:YouTube Shorts和TikTok
- 时间跨度:2025年1月至8月
- 记录数量:约50,000条视频级数据行+结构化摘要
数据集内容
主要文件
-
youtube_shorts_tiktok_trends_2025.csv
- 原始视频级数据(48,079行×58列)
- 包含平台、国家、地区、语言、类别、标签、作者账号、声音/音乐元数据和完整互动指标
-
youtube_shorts_tiktok_trends_2025_ml.csv
- 机器学习就绪版本(50,000行×32列)
- 简化和特征工程处理,用于快速建模和基线机器学习任务
-
monthly_trends_2025.csv
- 月度摘要(480行×8列)
- 包含视频数量、观看次数、平均互动率和速度
-
country_platform_summary_2025.csv
- 按国家×平台聚合的统计数据(60行×14列)
- 包含总计、中位数和基于百分位的互动基准
-
top_hashtags_2025.csv
- 热门标签(82行×18列)
- 跟踪使用次数、覆盖范围、互动比例和速度
-
top_creators_impact_2025.csv
- 创作者级别影响力(1,000行×20列)
- 包含创作者账号、视频数量、累计观看次数、点赞、评论、分享、保存和平均互动率
-
DATA_DICTIONARY.csv
- 完整元数据(58行)
- 包含列名、描述和数据类型
主要特征
- 跨平台全球短视频互动洞察
- 标准化模式
- 去重ID
- 一致的平台和国家命名
- 互动指标:观看次数、点赞、评论、分享、保存
适用场景
- 数据科学
- 仪表板开发
- 文化研究
- 机器学习实验
许可信息
- 许可证类型:CC0(公共领域)
- 使用限制:免费用于开放研究和教育
- 归属要求:不需要但始终受到赞赏
相关资源
- Shorts & TikTok Trends EDA:https://github.com/tarekmasryo/shorts-tiktok-trends
搜集汇总
数据集介绍

构建方式
在短视频内容迅猛发展的背景下,YouTube Shorts & TikTok Trends 2025 Dataset通过系统采集2025年1月至8月期间两大平台的海量视频数据构建而成。数据覆盖全球100多个国家,涵盖视频层级原始记录、创作者信息、互动指标及元数据,并经过严格的去重处理和标准化命名,确保跨平台数据的一致性与可比性。
特点
该数据集具备多维度、多层级的结构特点,包含原始视频数据、机器学习专用版本、月度汇总、国家平台统计、热门话题标签及头部创作者影响力等多个文件。其核心特征在于提供标准化模式下的完整互动指标,如观看量、点赞、评论、分享及保存数,并涵盖语言、类别、音乐元数据等丰富字段,支持跨地域、跨平台的深度趋势分析。
使用方法
研究者可借助该数据集开展文化传播分析、跨平台行为比较或机器学习建模等任务。例如使用ML专用文件进行趋势预测或分类实验,通过月度汇总文件追踪内容增长动态,或结合国家统计文件进行区域市场对比。数据加载便捷,支持Pandas等工具直接读取,适合嵌入数据仪表板、学术研究或算法开发流程中。
背景与挑战
背景概述
随着短视频内容成为数字媒体领域增长最快的格式,YouTube Shorts & TikTok Trends 2025 Dataset应运而生,由跨学科研究团队于2025年构建,旨在捕捉全球范围内短视频平台的动态趋势。该数据集覆盖100多个国家,整合了YouTube Shorts和TikTok两大平台的海量视频级数据,核心研究问题聚焦于跨平台内容参与度、创作者影响力以及区域文化差异的量化分析。其对传播学、计算社会科学和机器学习领域具有显著影响力,为理解现代数字文化演变提供了实证基础。
当前挑战
该数据集致力于解决短视频内容分类与趋势预测的复杂性挑战,包括多平台数据标准化、高维稀疏特征处理以及跨文化语境下的语义解析。构建过程中,研究人员面临了大规模数据采集的去重与ID一致性维护、多源元数据的融合与清洗,以及动态趋势标签的近似建模等难题,这些因素共同构成了数据质量和机器学习应用的基础障碍。
常用场景
经典使用场景
在数字媒体研究领域,该数据集为跨平台短视频内容分析提供了标准化基准。研究者通过整合YouTube Shorts和TikTok的双平台数据,能够系统追踪全球100多个国家地区的视频传播模式,分析不同文化背景下用户参与行为的差异性。典型应用包括构建内容热度预测模型、解析区域化审美偏好以及监测跨平台内容迁移规律,为数字传播学提供实证研究基础。
实际应用
商业场景中,该数据集支撑着品牌跨境营销策略的优化。市场分析师借助国家层级的内容汇总数据,识别不同区域的高效传播模因,指导本地化内容创作。平台运营团队则通过创作者影响力榜单和标签热度追踪,实时调整流量分配机制。此外,娱乐产业利用声音元数据和类别标签,预测潜在爆款内容的发展轨迹。
衍生相关工作
基于该数据集衍生的经典研究包括《多模态短视频热度预测模型》,该工作利用ML-ready版本特征构建了时空注意力神经网络;另有《跨文化短视频传播动力学》研究通过月度趋势数据验证了内容扩散的速度边界。这些成果均发表于国际计算社会科学顶会,推动了短视频量化分析方法论的发展。
以上内容由遇见数据集搜集并总结生成



