Tenet Media Podcasts on Rumble Dataset
收藏arXiv2025-03-26 更新2025-03-27 收录
下载链接:
https://zenodo.org/records/14629410
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了美国右翼媒体公司Tenet Media在Rumble平台上发布的560个播客视频,时间为2023年11月至2024年9月。数据集包括视频元数据和用户评论,以及高质量的视频转录,总视频时长达300小时以上。这一数据集旨在为研究人员提供研究俄罗斯国家赞助信息操作的材料,特别是关注在Rumble这一较少被研究的平台上的内容。
This dataset comprises 560 podcast videos published on the Rumble platform by Tenet Media, an American right-wing media company, spanning from November 2023 to September 2024. It includes video metadata, user comments, and high-quality video transcripts, with a combined runtime of over 300 hours. This dataset is designed to provide researchers with materials for investigating Russian state-sponsored information operations, with a particular focus on content hosted on the relatively understudied Rumble platform.
提供机构:
密歇根大学
创建时间:
2025-03-26
搜集汇总
数据集介绍

构建方式
该数据集通过自动化爬虫系统从Rumble平台收集了Tenet Media频道在2023年11月至2024年9月间发布的560个播客视频。爬虫按时间顺序遍历频道页面,采集视频元数据、用户评论及高质量转录文本,确保数据的全面性和时序完整性。转录工作采用Whisper大型语音识别模型,并经过人工校验以提升准确性,最终形成包含302小时视频内容的标准化数据集。
使用方法
研究者可通过结构化JSON文件获取视频元数据、评论及转录文本,支持计量分析与文本挖掘。数据集遵循FAIR原则,附有内容警告提示敏感信息。建议结合主题建模或命名实体识别技术分析政治传播模式,同时需注意用户互动数据的时效性及转录文本可能存在的语音识别误差。
背景与挑战
背景概述
Tenet Media Podcasts on Rumble Dataset是由密歇根大学的研究团队Laura Kurek、Kevin Zheng、Eric Gilbert和Ceren Budak于2025年创建的,旨在研究俄罗斯政府资助的Tenet Media公司在2024年美国总统选举周期中的信息操作活动。该数据集收录了Tenet Media在Rumble平台上发布的560个播客视频,包括视频元数据、用户评论以及高质量的视频转录文本,总计超过300小时的视频内容。这一数据集为研究国家赞助的信息操作(SSIO)提供了宝贵的资源,尤其是在Rumble这一尚未被充分研究的平台上。
当前挑战
Tenet Media Podcasts on Rumble Dataset面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,该数据集旨在解决如何识别和分析国家赞助的信息操作(SSIO)在播客平台上的传播策略和影响,尤其是在Rumble这一右翼内容集中的平台上。构建过程中的挑战则包括数据采集的复杂性,如自动化抓取Rumble平台上的视频和评论数据,以及确保转录文本的准确性。此外,数据集中包含的敏感内容(如仇恨言论和虚假信息)也带来了伦理和隐私方面的挑战。
常用场景
经典使用场景
在信息战与政治传播研究领域,Tenet Media Podcasts on Rumble Dataset为分析国家资助的信息操作(SSIO)提供了独特案例。该数据集收录了560个右翼政治播客视频及其用户互动数据,尤其聚焦俄罗斯资助内容对美国2024年大选的影响。研究者可通过视频元数据、用户评论及精准转录文本,系统考察外国势力如何通过本土化内容创作者实施意识形态渗透。
解决学术问题
该数据集填补了SSIO研究中真实内容创作数据的空白,突破了以往依赖虚假社交账号数据的局限。通过分析付费内容创作者的叙事策略、用户参与模式及政治话语框架,解决了三大核心问题:国家资助如何影响内容生产独立性、意识形态传播的跨平台适应性,以及右翼话语在替代性视频平台(Rumble)的算法推荐机制。其高质量转录文本更支持语言学视角的操纵性话语分析。
实际应用
该数据集的实际价值体现在国家安全与平台治理领域。情报机构可据此建立国家资助媒体特征库,优化虚假信息监测模型;社交媒体平台能通过分析视频标签与用户互动模式,完善针对政治操纵内容的识别算法。教育机构则将其作为媒体素养教育的典型案例,揭示地缘政治与信息生态的复杂关联。
数据集最近研究
最新研究方向
随着数字媒体平台的崛起,国家支持的信息操作(SSIO)研究正逐渐转向多模态内容分析。Tenet Media Podcasts on Rumble Dataset作为首个聚焦右翼播客视频的SSIO数据集,为研究者提供了研究外包式信息战的新视角。该数据集不仅包含视频元数据和用户评论,还提供了高质量的转录文本,使得研究者能够深入分析国家资助对内容创作的影响。当前研究热点包括利用自然语言处理技术分析播客中的政治叙事,以及探讨Rumble等替代平台在信息传播中的独特作用。这一数据集的发布填补了SSIO研究中播客内容分析的空白,为理解数字时代的信息战策略提供了重要资源。
相关研究论文
- 1Outsourcing an Information Operation: A Complete Dataset of Tenet Media's Podcasts on Rumble密歇根大学 · 2025年
以上内容由遇见数据集搜集并总结生成



