five

PoliTok-DE

收藏
arXiv2025-09-19 更新2025-09-23 收录
下载链接:
https://huggingface.co/datasets/tomasruiz/PoliTok-DE
下载链接
链接失效反馈
官方服务:
资源简介:
PoliTok-DE 是一个大规模的多模态数据集,包含与 2024 年德国萨克森州选举相关的 TikTok 帖子(视频、音频、图像、文本)。该语料库包含 2024 年 7 月 1 日至 2024 年 11 月 30 日期间发布的超过 195,000 条帖子,其中超过 18,000 条(17.3%)随后从平台上删除。通过 TikTok 研究API和网络抓取来识别帖子,并补充以检索完整的多媒体和元数据。PoliTok-DE 支持跨实质性和方法论议程的计算社会科学:关于不宽容和政治传播的实质性工作;关于删除内容周围的平台政策和定性与定量多模态研究的方法论工作。为了说明一个可能的分析,我们报告了一个使用注释子集的案例研究,以研究不宽容和娱乐的共同发生。帖子的数据集是公开可用的,可以在 Hugging Face 上找到,并且可以使用我们提供的代码检索完整内容。删除内容的访问是受限制的,可以请求用于研究目的。

PoliTok-DE is a large-scale multimodal dataset consisting of TikTok posts (videos, audio, images, text) related to the 2024 Saxony State Election in Germany. This corpus contains over 195,000 posts published between July 1, 2024 and November 30, 2024, of which more than 18,000 (17.3%) were subsequently removed from the platform. Posts were identified via the TikTok Research API and web scraping, supplemented by retrieval of complete multimedia content and metadata. PoliTok-DE supports computational social science research across both substantive and methodological agendas: substantive work on intolerance and political communication; methodological work on platform policies surrounding removed content, as well as qualitative and quantitative multimodal research. To illustrate a potential analysis, we report a case study using a subset of annotated data to investigate the co-occurrence of intolerance and entertainment. The post dataset is publicly available on Hugging Face, with accompanying code provided to retrieve full content. Access to removed content is restricted and may be requested exclusively for research purposes.
提供机构:
慕尼黑路德维希-马克西米利安大学, 慕尼黑工业大学
创建时间:
2025-09-19
原始信息汇总

PoliTok-DE数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别: 视频分类、图像分类
  • 语言: 德语、英语
  • 标签: TikTok、视频、社交媒体
  • 数据规模: 10万到100万之间

数据描述

  • 内容类型: 视频和图像数据
  • 来源: TikTok社交媒体平台
  • 语言覆盖: 德语和英语内容
搜集汇总
数据集介绍
main_image_url
构建方式
在政治传播研究领域,PoliTok-DE数据集的构建采用了多阶段混合方法。研究团队首先通过TikTok研究API,以萨克森州选举相关关键词为检索条件,每日采集帖子的元数据与标识符。随后利用网络爬虫技术补充获取完整的多模态媒体内容,包括视频、音频和图像。为追踪内容动态变化,在数据收集窗口结束后10天重新爬取以识别被删除帖子,最终形成包含195,373条帖子的时间序列数据集,其中18,842条标记为已删除状态。
使用方法
研究者可通过Hugging Face平台获取帖子标识符集合,并利用配套的水合代码从TikTok平台重新获取完整内容。这种分布式存储策略既遵守平台条款,又确保研究可复现性。针对敏感的被删除内容,数据集采用分级访问机制,需经申请审批方可获取。在分析方法上,数据集支持从计算社会科学到质性研究的多种范式,案例研究展示了如何通过人工标注子集进行娱乐性与排斥性话语的交叉分析,为混合方法研究提供了实践模板。
背景与挑战
背景概述
PoliTok-DE数据集由慕尼黑大学和慕尼黑工业大学的研究团队于2025年发布,聚焦2024年德国萨克森州选举期间的政治传播动态。该数据集收录了195,373条TikTok多模态内容,涵盖视频、音频、图像及文本数据,其中超过18,000条内容在发布后被平台删除。通过结合研究API与网络爬虫技术,该数据集为计算社会科学提供了研究政治沟通、平台内容审核机制及多模态分析的实证基础,尤其对极端言论与娱乐化政治表达的交叉研究具有重要价值。
当前挑战
在领域问题层面,PoliTok-DE需解决多模态内容中隐性极端言论的识别难题,例如通过视觉符号、音频暗示或跨模态交互传递的排外信息,其主观性导致标注一致性较低(Krippendorff's α仅0.48)。构建过程中,研究团队面临数据动态性挑战:平台删除行为原因多样(如用户自主删除或平台管控),且API与网页端数据存在时效差异;同时,仅依赖文本关键词匹配可能低估音频或画面中的政治内容,需通过多轮爬虫与人工标注弥补局限性。
常用场景
经典使用场景
在政治传播学领域,PoliTok-DE数据集为研究短视频平台上的选举动态提供了独特视角。该数据集通过整合视频、音频、图像和文本等多模态数据,支持对2024年德国萨克森州选举期间TikTok内容的系统性分析。其经典应用场景包括量化政党内容传播规律,例如通过关键词频率分析揭示右翼政党AfD在删除内容中的显著占比,以及通过多模态标注探究娱乐元素与排外言论的共生现象。这类研究常采用计算社会科学方法,结合API元数据与网页爬取技术,构建跨模态的政治传播图谱。
解决学术问题
PoliTok-DE有效解决了政治传播研究中多模态数据缺失的瓶颈问题。传统研究多依赖文本或静态图像,而该数据集通过完整的视频、音频及元数据采集,支持对政治娱乐化、隐性 intolerance 等复杂现象的跨模态分析。其删除内容快照机制为平台内容治理研究提供了实证基础,例如通过对比删除与留存内容的特征差异,可揭示平台政策执行效果与用户自发性内容调控行为。这些特性显著推进了计算社会科学在政治传播、内容审核等领域的方法论创新。
实际应用
该数据集的实际价值体现在对数字政治生态的监测与干预支持中。政策制定者可借助其多模态分析能力,识别选举期间潜在的煽动性内容传播模式,例如通过娱乐化包装的极端言论。媒体监管机构则能利用删除内容特征构建风险预警模型,优化平台内容审核机制。教育领域亦可将其作为数字素养教学案例,帮助学生理解多模态政治传播的复杂性。这些应用均建立在数据集对真实网络政治生态的高保真还原基础上。
数据集最近研究
最新研究方向
在计算社会科学领域,PoliTok-DE数据集为政治传播研究提供了多模态分析的新视角。该数据集聚焦2024年德国萨克森州选举期间的TikTok内容,通过整合视频、音频、图像及文本数据,揭示了极右翼政党AfD在删除内容中的显著占比,为研究网络 intolerance 与娱乐化表达的共生现象提供了实证基础。当前研究热点集中于平台内容删除机制的政治意涵,以及多模态数据在识别隐性排斥性话语方面的方法论创新,这些探索不仅深化了对短视频平台政治传播动态的理解,也为数字治理政策提供了数据支撑。
相关研究论文
  • 1
    PoliTok-DE: A Multimodal Dataset of Political TikToks and Deletions From Germany慕尼黑路德维希-马克西米利安大学, 慕尼黑工业大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作