five

KnutJaegersberg/youtube_stats_one_million

收藏
Hugging Face2023-07-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KnutJaegersberg/youtube_stats_one_million
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Kaggle上由MATTIA ZENI发布的YouTube视频统计数据的重新分发版本,原始数据为30GB的JSON文件,经过解析后以表格形式存储。主表为1millvids_extended.parquet,主键为X_id(URL的唯一部分)。数据集包含了对视频传播性的线性回归分析结果,以及纵向的YouTube互动数据记录。需要注意的是,并非所有视频仍然可用。

该数据集是从Kaggle上由MATTIA ZENI发布的YouTube视频统计数据的重新分发版本,原始数据为30GB的JSON文件,经过解析后以表格形式存储。主表为1millvids_extended.parquet,主键为X_id(URL的唯一部分)。数据集包含了对视频传播性的线性回归分析结果,以及纵向的YouTube互动数据记录。需要注意的是,并非所有视频仍然可用。
提供机构:
KnutJaegersberg
原始信息汇总

数据集概述

数据集来源与处理

  • 原始数据集:由MATTIA ZENI在Kaggle上发布的YouTube视频统计数据集,原始格式为30GB的JSON文件,数据采样自2013年,使用WordNet进行采样。
  • 当前数据集:已解析为表格形式,主要表格文件名为1millvids_extended.parquet,主键为X_id(URL的唯一部分)。
  • 数据处理:进行了线性回归分析,以累积观看次数反映病毒性(变量views_cummulative_linear_reg_coef),并添加了可用的关键纵向统计数据。

数据集内容

  • 主要表格:包含YouTube视频的统计数据。
  • 其他表格:记录了YouTube用户参与的纵向数据,格式为长格式记录。
  • 可用性:并非所有视频仍然可用。

许可证信息

  • 许可证:Open Data Commons Attribution License (ODC-By) v1.0。
  • 使用条件:使用数据集时必须遵守ODC-By许可证的条款,包括但不限于保留版权和许可证通知,以及在公开传达数据集时包含许可证副本或URI。

数据集链接

此概述提供了数据集的基本信息,包括其来源、处理方式、内容、许可证要求以及如何访问原始数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作