youtube-stats-analysis
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://huggingface.co/datasets/Omrilevi123/youtube-stats-analysis
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“2023年全球YouTube统计数据”,包含2023年排名前1000+的YouTube频道的信息。数据集的目标是识别影响频道成功的关键因素,重点关注频道类别、地理分布以及观看次数与收入之间的关系。数据集来源于Kaggle,包含订阅者数量、视频观看次数、类别、国家和估计收入等信息。数据集规模为995行和28列。在数据清洗过程中,对列名进行了去空格处理,删除了缺失关键信息的行(如类别或国家),并使用中位数填充了数值型缺失值以避免异常值带来的偏差。此外,通过箱线图检测到“超级频道”(如MrBeast)并保留在数据集中,因为它们代表了YouTube生态系统的真实部分。该数据集适用于分析YouTube频道的成功因素、内容类别的流行度、频道的全球分布以及观看次数与收入之间的相关性。
创建时间:
2026-04-03
搜集汇总
数据集介绍

构建方式
该数据集源自Kaggle平台发布的《2023年全球YouTube统计数据》,原始数据经过系统化清洗与整理,形成了包含995条记录、28个字段的结构化表格。在构建过程中,通过去除列名中的空白字符确保技术一致性,并对缺失值进行了严谨处理:关键字段如类别与国家信息缺失的行被移除,数值型缺失值则采用中位数填充,以规避异常值带来的偏差。异常值检测环节保留了如MrBeast等“超级频道”,因其真实反映了YouTube生态的多样性,使数据集更具现实代表性。
使用方法
该数据集适用于数据科学入门教学、媒体生态分析与数字营销策略研究等领域。使用者可通过附带的Python Notebook进行探索性数据分析,复现数据清洗、异常值检测与可视化流程。研究可围绕内容类别流行度、频道地理分布特征以及视图与收益的相关性等核心问题展开,利用散点图、条形图等工具挖掘内在模式。数据集已预处理好缺失值与格式问题,可直接用于统计建模或机器学习实验,以探究影响频道成功的关键因素。
背景与挑战
背景概述
在数字媒体与在线内容创作蓬勃发展的时代,YouTube作为全球领先的视频分享平台,其生态系统的成功机制成为数据科学领域的重要研究课题。'youtube-stats-analysis'数据集由Omri Levi基于Kaggle的'Global YouTube Statistics 2023'数据构建,作为以色列Reichman大学数据科学导论课程的组成部分,于2023年发布。该数据集聚焦于全球顶尖YouTube频道的多维度统计信息,旨在通过探索性数据分析揭示影响频道成功的关键因素,如内容类别、地理分布以及观看量与收益之间的关联,为理解数字内容市场的动态与商业模式提供了实证基础。
当前挑战
该数据集致力于解析在线视频平台中频道成功的驱动因素,其核心挑战在于如何从高维异构数据中准确提取影响收益与流行度的关键特征。构建过程中,研究人员面临数据质量与一致性的挑战,包括处理缺失值、统一列名格式以及识别并合理保留代表平台生态中极端但真实的'超级频道'异常值。此外,由于收益估算受到观众地理位置、广告费率等复杂外部因素影响,建立稳健的统计模型以区分相关性背后的因果机制,亦是该数据集应用中的显著难点。
常用场景
经典使用场景
在数字媒体与内容分析领域,YouTube作为全球最大的视频分享平台,其数据蕴含丰富的商业与学术价值。该数据集常用于探索顶级YouTube频道的成功模式,通过分析订阅量、观看次数、类别分布及收益等关键指标,揭示内容创作与受众互动之间的内在联系。研究者可借此构建预测模型,评估频道增长潜力,或识别新兴趋势,为内容策略优化提供数据驱动的见解。
解决学术问题
该数据集有效解决了传播学与数据科学交叉领域的若干核心问题,例如内容类别与受众偏好的关联性、地理文化因素对频道影响力的作用机制,以及视频观看量与收益之间的量化关系。通过严谨的统计分析,它帮助学者验证假设,如“特定内容类别是否更具病毒式传播潜力”,从而深化对数字内容生态系统的理解,推动媒体经济学与社交网络分析的理论发展。
实际应用
在实际应用中,该数据集为内容创作者、营销机构及平台运营者提供了决策支持。创作者可参照成功频道的特征调整内容方向,提升曝光与收益;广告商能依据地理分布数据优化投放策略,锁定高价值市场;平台方则可利用相关性分析改进推荐算法,增强用户粘性。这些应用直接促进了数字内容产业的精细化运营与商业化效率。
数据集最近研究
最新研究方向
在数字媒体与内容分析领域,YouTube作为全球最大的视频分享平台,其数据已成为研究在线内容生态与创作者经济的关键资源。基于YouTube统计数据的最新研究聚焦于多模态内容策略的优化与跨文化传播效应,探索算法推荐机制下不同内容类别(如娱乐、教育、生活类)的受众互动模式与盈利潜力。热点事件如人工智能生成内容的兴起,促使学者分析其对传统创作者生态的冲击,结合地理分布数据(如美国与印度的主导地位)揭示区域市场差异对广告收益的影响。这些研究不仅深化了对数字内容价值链的理解,也为平台政策制定与创作者战略调整提供了实证依据,推动在线媒体研究向动态化、跨学科方向发展。
以上内容由遇见数据集搜集并总结生成



