five

MeLa-BitChute数据集

收藏
arXiv2022-02-11 更新2024-06-21 收录
下载链接:
https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/KRD1VS
下载链接
链接失效反馈
官方服务:
资源简介:
MeLa-BitChute数据集是由佛蒙特大学复杂系统中心等机构创建,包含超过300万条视频数据,涵盖61,229个频道,数据收集时间为2019年6月至2021年12月。该数据集主要用于研究社交媒体平台BitChute上的内容分布、用户行为及信息传播机制,特别是在极端内容和政治不实信息方面的应用。数据集通过定制的网络爬虫技术收集,包括视频元数据、评论和观看次数等,旨在帮助研究者深入理解非主流社交媒体平台的功能和影响。

The MeLa-BitChute dataset was developed by the Complex Systems Center at the University of Vermont and other institutions. It contains over 3 million video records, covering 61,229 channels, and was collected between June 2019 and December 2021. This dataset is primarily used for researching content distribution, user behavior and information propagation mechanisms on the social media platform BitChute, with specific applications focusing on extremist content and political misinformation. The dataset was collected via customized web crawler technologies, including video metadata, comments, view counts and other relevant data, aiming to help researchers gain an in-depth understanding of the functions and impacts of non-mainstream social media platforms.
提供机构:
佛蒙特大学复杂系统中心
创建时间:
2022-02-11
搜集汇总
数据集介绍
main_image_url
构建方式
在另类技术平台研究日益受到关注的背景下,MeLa-BitChute数据集应运而生。由于BitChute缺乏公开API,研究者构建了一套定制化的网络爬虫系统,通过每五分钟扫描平台的新视频堆栈来捕获视频元数据,包括标题、描述、上传者、频道、类别及敏感度评级。对于已发布超过一周的视频,系统每隔24小时循环访问其页面,利用动态请求解析技术收集观看次数与评论数据,并记录评论作者、内容及时间戳。频道的描述信息则通过单独进程一次性抓取。整个流程依赖PostgreSQL数据库存储,最终转换为SQLite3数据库和CSV文件两种格式,以降低使用门槛。
特点
该数据集涵盖了2019年6月至2021年12月间超过300万条视频、6.1万个频道及1140万条评论,具有近乎完整的平台覆盖度。其独特之处在于,不仅包含了视频层面的丰富元数据,还兼顾了评论与频道描述的文本信息,并提供了动态获取的观看次数估计值。数据集遵循FAIR原则,存储于哈佛Dataverse平台,具备可发现性、可访问性、可互操作性与可重用性。在伦理层面,数据集对评论作者进行了匿名化哈希处理,以平衡研究需求与隐私保护,同时保留了频道与视频的原始标识以确保数据溯源能力。
使用方法
研究者可通过SQLite3数据库或CSV文件直接加载数据,支持使用Python、SQL、R等工具进行解析与分析。数据集附带示例Python脚本,便于快速上手。在应用场景上,该数据可用于追踪内容审核与去平台化效应,分析跨平台的极端言论迁移;也可用于研究阴谋论与政治虚假信息的传播模式,尤其是健康类错误信息在另类平台中的供需动态。此外,它还能支撑对仇恨言论与网络极端主义的纵向分析,以及替代性货币化策略的探索。研究者可将此数据集与其他社交媒体数据结合,构建全面的另类技术生态图景。
背景与挑战
背景概述
在社交媒体生态中,替代性技术平台(alt-tech)因主流平台的内容审核而兴起,成为传播反社会内容(如政治虚假信息、健康阴谋论和仇恨言论)的重要温床。BitChute作为YouTube的替代平台,在其中扮演关键角色,却因缺乏公开API而长期被学术界忽视。为填补这一空白,Milo Z. Trujillo、Maurício Gruppi、Cody Buntain和Benjamin D. Horne等研究者于2021年创建了MeLa-BitChute数据集,收录了2019年6月至2021年12月间超过300万条视频、6.1万个频道及1140万条评论的元数据。该数据集通过定制化爬虫技术克服了平台封闭性,为研究alt-tech生态中的内容审核、去平台化效应、阴谋论传播及极端主义行为提供了近全量、跨时段的纵向数据基础,对理解信息生态系统的完整性具有里程碑意义。
当前挑战
该数据集面临的核心挑战源于平台特性与构建过程的双重复杂性。首先,BitChute无公开API且采用动态加载技术,迫使研究者依赖爬虫与逆向工程,导致数据采集极易受平台变更影响——例如2020年评论系统从Disqus切换至CommentFreely,造成约8.8M条评论(占总量的22.9%)永久丢失,严重制约了时间序列分析的可靠性。其次,服务器宕机、IP封锁及电力中断等基础设施问题导致6次采集中断,虽多数视频得以恢复,但无法保证完全覆盖。此外,评论ID格式因系统变迁而不统一,作者ID无法跨时期关联,视图数据采集时间存在偏差,这些缺陷要求研究者在使用时必须谨慎过滤与校准,以避免因果推断的谬误。
常用场景
经典使用场景
在替代性技术(alt-tech)生态系统的研究中,MeLa-BitChute数据集作为核心资源,被广泛用于剖析BitChute平台的内容生态与用户行为。该数据集涵盖了超过300万条视频、6万余个频道及1100余万条评论,时间跨度从2019年6月至2021年12月,为研究者提供了近乎完整的平台快照。经典的使用场景包括追踪极端主义内容的传播路径、分析反社会言论的演变趋势,以及评估去平台化(deplatforming)干预措施对创作者和受众的跨平台影响。通过该数据集,学者能够系统性地揭示BitChute在替代性信息生态中的枢纽角色,弥补了此前因缺乏公开API而导致的数据空白。
实际应用
在实际应用中,MeLa-BitChute数据集被政策制定者、内容审核团队和网络安全机构用于监测和评估替代平台的危害性。例如,通过分析视频观看量、评论情感和频道活跃度的时间序列,可以实时追踪错误信息(如Plandemic影片)在主流平台封禁后的反弹效应。社交媒体平台亦可借此数据集优化其跨平台内容审核策略,识别被去平台化的创作者是否在BitChute上重建影响力。此外,该数据还支持开发自动化检测工具,用于识别仇恨符号、极端主义叙事和健康谣言,从而辅助执法部门预防线下暴力事件。其多模态特性(视频标题、描述、评论文本)为构建鲁棒的虚假信息预警系统提供了宝贵的训练素材。
衍生相关工作
该数据集衍生了一系列具有影响力的相关研究工作。在内容审核领域,Buntain等人利用该数据评估了YouTube去推荐策略对BitChute流量激增的间接效应,揭示了跨平台内容抑制的局限性。Rauchfleisch和Kaiser则基于数据集分析了2018-2019年间被YouTube封禁的极右翼频道在BitChute上的迁移比例,为理解去平台化的实际效果提供了实证依据。在错误信息研究方面,Hoseini等人借助该数据探索了QAnon阴谋论在Telegram与BitChute之间的全球化传播网络。此外,Warreth的工作利用数据集中的频道描述信息,研究了极右翼团体如何通过加密货币和众筹平台实现替代性变现,拓展了对替代技术经济模式的理解。这些衍生工作共同推动了跨平台信息生态学的理论发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作