KnutJaegersberg/youtube_stats_one_million
收藏Hugging Face2023-07-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KnutJaegersberg/youtube_stats_one_million
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Kaggle上由MATTIA ZENI发布的YouTube视频统计数据的重新分发版本,原始数据为30GB的JSON文件,经过解析后以表格形式存储。主表为1millvids_extended.parquet,主键为X_id(URL的唯一部分)。数据集包含了对视频传播性的线性回归分析结果,以及纵向的YouTube互动数据记录。需要注意的是,并非所有视频仍然可用。
该数据集是从Kaggle上由MATTIA ZENI发布的YouTube视频统计数据的重新分发版本,原始数据为30GB的JSON文件,经过解析后以表格形式存储。主表为1millvids_extended.parquet,主键为X_id(URL的唯一部分)。数据集包含了对视频传播性的线性回归分析结果,以及纵向的YouTube互动数据记录。需要注意的是,并非所有视频仍然可用。
提供机构:
KnutJaegersberg
原始信息汇总
数据集概述
数据集来源与处理
- 原始数据集:由MATTIA ZENI在Kaggle上发布的YouTube视频统计数据集,原始格式为30GB的JSON文件,数据采样自2013年,使用WordNet进行采样。
- 当前数据集:已解析为表格形式,主要表格文件名为
1millvids_extended.parquet,主键为X_id(URL的唯一部分)。 - 数据处理:进行了线性回归分析,以累积观看次数反映病毒性(变量
views_cummulative_linear_reg_coef),并添加了可用的关键纵向统计数据。
数据集内容
- 主要表格:包含YouTube视频的统计数据。
- 其他表格:记录了YouTube用户参与的纵向数据,格式为长格式记录。
- 可用性:并非所有视频仍然可用。
许可证信息
- 许可证:Open Data Commons Attribution License (ODC-By) v1.0。
- 使用条件:使用数据集时必须遵守ODC-By许可证的条款,包括但不限于保留版权和许可证通知,以及在公开传达数据集时包含许可证副本或URI。
数据集链接
- Kaggle数据集链接:YouTube视频统计数据集。
此概述提供了数据集的基本信息,包括其来源、处理方式、内容、许可证要求以及如何访问原始数据集。



