five

YouTube Trending Dataset (2022-2025)

收藏
arXiv2025-10-25 更新2025-10-30 收录
下载链接:
https://arxiv.org/abs/2503.01790
下载链接
链接失效反馈
官方服务:
资源简介:
YouTube Trending Dataset (2022-2025) 是一个由伊利诺伊大学厄巴纳-香槟分校的研究人员收集的三年期数据集,包含从2022年7月1日至2025年6月30日的YouTube趋势视频数据。数据集包含来自104个国家的446,971个快照,每个快照捕捉最多200个趋势视频,涵盖了78.4百万个视频条目(726,627个唯一视频)和相关元数据。数据集旨在为研究数字文化、平台治理和内容流行度的时空动态提供跨国家和纵向的覆盖。数据集的创建过程使用了YouTube Data API v3,以每天四个固定时间间隔收集每个国家最多200个趋势视频。数据存储在Amazon S3中,并通过AWS Athena提供查询服务。数据集的应用领域包括研究算法偏见、文化扩散、本地化和全球-本地动态,以及评估平台治理和公共卫生传播。

The YouTube Trending Dataset (2022-2025) is a three-year dataset collected by researchers from the University of Illinois Urbana-Champaign, covering YouTube trending video data from July 1, 2022 to June 30, 2025. The dataset contains 446,971 snapshots from 104 countries, with each snapshot capturing up to 200 trending videos, totaling 78.4 million video entries (726,627 unique videos) and their associated metadata. This dataset aims to provide cross-national and longitudinal coverage for research on digital culture, platform governance, and the spatiotemporal dynamics of content popularity. The dataset was constructed using the YouTube Data API v3, collecting up to 200 trending videos per country at four fixed daily time intervals. The data is stored in Amazon S3 and accessible for querying via AWS Athena. Application scenarios of this dataset include research on algorithmic bias, cultural diffusion, localization and global-local dynamics, as well as evaluations of platform governance and public health communication.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2025-10-25
搜集汇总
数据集介绍
main_image_url
构建方式
在数字媒体研究领域,平台策展数据的获取始终是学术探索的重要基础。YouTube Trending Dataset (2022-2025)通过YouTube Data API v3接口,采用系统化采集策略,每日在四个固定时段(00:00-05:59、06:00-11:59、12:00-17:59、18:00-23:59 UTC)对104个国家的热门视频列表进行抓取。持续三年的监测周期覆盖了2022年7月1日至2025年6月30日,每个国家每次采集最多200个热门视频,最终形成包含44.6万次快照、7840万条视频记录的完整数据集。数据存储采用亚马逊S3云服务,并通过AWS Athena提供查询支持,确保数据可访问性与处理效率。
特点
该数据集展现出多维度学术价值,其非个性化特性为算法议程设置研究提供了难得的地面真实数据。时空覆盖方面,三年持续监测与104个国家范围创造了前所未有的比较研究条件,每日四次的高频采样更能捕捉突发事件的传播轨迹。内容维度上,数据集不仅包含视频基础元数据,还通过独立标签文件记录了创作者标注的关键词,支持多模态分析。特别值得注意的是,仅72.6万独特视频在7840万条记录中反复出现,揭示了平台内容推荐的集中化趋势与跨文化传播模式,为研究数字注意力经济提供了丰富实证材料。
使用方法
研究者可通过标准化查询接口访问这一数据集,主要数据表most_popular.csv与辅助标签表tags.csv通过复合键(collection_date, region_code, rank)实现关联查询。数据分析可沿三个方向展开:纵向层面可追踪特定视频在各国热门榜单的持续时间与排名变化,横向比较能分析文化相近国家的内容偏好差异,事件研究则适合结合实体识别技术考察危机事件的内容传播模式。鉴于数据集已遵循FAIR原则进行整理,学者可直接将其应用于平台治理、文化传播、算法审计等研究场景,同时应注意API变更导致的部分字段缺失问题,确保研究设计的严谨性。
背景与挑战
背景概述
YouTube热门数据集(2022-2025)由伊利诺伊大学厄巴纳-香槟分校的Alexandre Goncalves与Yee Man Margaret Ng团队构建,覆盖2022年7月至2025年6月期间104个国家的平台精选热门视频。该数据集捕捉了YouTube在终止其十年历史的非个性化“热门”页面前的最后三年数据,成为研究数字文化传播、算法议程设置与跨国家注意力动态的珍贵历史档案。其包含的78.4百万条视频记录与高频次采样设计,为分析平台治理、危机传播及文化接近性理论提供了前所未有的纵向与空间维度实证基础。
当前挑战
该数据集致力于解决数字媒体生态中算法影响力评估与跨文化内容传播的核心难题,其构建面临双重挑战:在领域层面,需克服个性化推荐时代缺乏非个性化“地面实况”数据的瓶颈,以区分平台议程设置与真实受众兴趣;在技术层面,高频次多国家数据采集受制于YouTube API政策变更(如2021年取消点赞数字段),且需维持98%的采样覆盖率以保障突发性热点事件分析的完整性。
常用场景
经典使用场景
在数字文化研究领域,YouTube Trending Dataset (2022-2025)作为平台策展趋势的权威记录,其经典应用聚焦于跨文化传播轨迹的追踪分析。该数据集通过每日四次的高频采样,能够精确捕捉病毒内容的扩散路径,为研究全球注意力动态提供了独特视角。学者可借助其覆盖104个国家的庞大规模,深入探究文化产品如何跨越语言障碍与地域边界,揭示数字时代内容流动的内在规律。
实际应用
在公共政策实践层面,该数据集已成为危机传播管理的重要工具。公共卫生机构可通过分析突发疫情期间的趋势内容,评估权威信息与误导性内容的传播动态。媒体监测机构则利用其构建早期预警系统,实时追踪敏感话题的舆论态势。教育机构更将其作为数字素养教学的典型案例,帮助学生理解算法如何影响信息接触模式。
衍生相关工作
基于该数据集衍生的经典研究包括Ng(2023)开展的跨国家疫情恐惧诉求分析,系统比较了六国COVID-19趋势视频的信息框架差异。Ng与Taneja(2023)则通过对比YouTube与Twitter趋势,实证揭示了网络消费的区域化特征,挑战了互联网无国界的传统认知。这些研究共同构建了平台内容跨国比较的方法论体系,为后续文化接近性理论的数字化验证奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作