five

TikTok 2024 U.S. Presidential Election Dataset

收藏
arXiv2024-12-20 更新2024-07-04 收录
下载链接:
https://github.com/gabbypinto/US2024PresElectionTikToks
下载链接
链接失效反馈
官方服务:
资源简介:
TikTok 2024 U.S. Presidential Election Dataset是由南加州大学洛杉矶分校的研究团队创建的一个大规模多模态数据集,旨在研究2024年美国总统选举期间的政治传播和社交媒体动态。该数据集包含从2023年11月1日至2024年10月16日期间在TikTok上发布的314万条视频,涵盖视频ID和转录文本。数据集通过TikTok Research API和第三方工具收集,涵盖了选举相关的关键词和话题标签,支持对协同信息传播、错误信息传播、受众参与模式等关键问题的研究。该数据集的应用领域主要集中在社交媒体对民主和公众舆论的影响研究上,旨在揭示TikTok在塑造选举话语中的作用。

The TikTok 2024 U.S. Presidential Election Dataset is a large-scale multimodal dataset developed by a research team at the University of California, Los Angeles (UCLA), designed to investigate political communication and social media dynamics during the 2024 United States presidential election. This dataset encompasses 3.14 million TikTok videos posted between November 1, 2023 and October 16, 2024, with associated video IDs and transcribed text content. The dataset was collected using the TikTok Research API and third-party tools, covering election-related keywords and hashtags, enabling research on critical topics including coordinated information dissemination, misinformation propagation, and audience engagement patterns. Its primary application domains focus on studies examining the impact of social media on democracy and public opinion, with the goal of uncovering the role of TikTok in shaping electoral discourse.
提供机构:
南加州大学洛杉矶分校
创建时间:
2024-12-20
原始信息汇总

2024年总统选举TikTok视频ID数据集

数据集概述

该数据集包含与2024年总统选举相关的TikTok视频ID。数据通过TikTok的研究API收集。为了遵守TikTok的服务条款,我们仅公开发布收集的TikTok视频ID。

数据组织

  • data: 包含收集的视频ID的csv文件。
  • scripts: 用于数据收集的Python代码。
  • supplementary_files: 包含每个阶段查询中应用的关键词/标签。

更新记录

  • 6/29/2024:
    • 发布了迄今为止收集的内容ID、查询中使用的关键词/标签以及用于数据收集的脚本。将对脚本进行修改。
  • 7/20/2024:
    • 更新了元数据收集脚本(metadata_collection.py)。

要求

需要获得TikTok研究API的访问权限,以通过/script/metadata_collection.py收集元数据。

联系方式

如有疑问,请发送电子邮件至gpinto@usc.edu。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过使用TikTok Research API进行大规模数据收集,涵盖了2023年11月1日至2024年5月26日期间发布的180万条与2024年美国总统选举相关的TikTok视频。研究团队结合选举相关关键词和标签,利用API获取视频的元数据,包括视频描述、发布时间、地区代码、分享次数、观看次数、点赞数、评论数等。为弥补API的局限性,研究还采用了第三方爬虫工具,进一步扩展数据集。数据集的构建过程分为多个阶段,每个阶段根据选举进程中的重大事件动态调整关键词和标签,确保数据的时效性和相关性。
特点
该数据集具有多模态特性,包含视频和文本数据,提供了丰富的选举相关信息。数据集涵盖了180万条视频,涉及多种语言,特别是英语和西班牙语,反映了不同用户群体的政治观点。此外,数据集还包含了视频的互动数据,如点赞、分享和评论,为研究选举期间的社交媒体互动提供了宝贵的资源。通过关键词和标签的动态调整,数据集能够捕捉选举进程中的热点话题和舆论变化,具有较高的时效性和研究价值。
使用方法
研究者可以通过访问GitHub仓库获取数据集的视频ID,并利用这些ID通过TikTok API获取完整的视频对象及其元数据。数据集适用于分析社交媒体在选举中的作用,研究选举期间的舆论动态、用户互动模式以及政治传播策略。研究者可以结合视频内容和文本数据,进行情感分析、主题建模、用户行为分析等多维度的研究。此外,数据集还提供了丰富的互动数据,可用于研究社交媒体上的信息传播和用户参与模式。
背景与挑战
背景概述
随着社交媒体在选举政治中的重要性日益凸显,TikTok作为一种新兴的短视频平台,已成为2024年美国总统选举相关讨论的重要阵地。由南加州大学HUMANS实验室的研究团队创建的TikTok 2024 U.S. Presidential Election Dataset,涵盖了2023年11月1日至2024年5月26日期间发布的180万条与选举相关的视频内容。该数据集通过TikTok Research API和第三方抓取工具,捕捉了与选举相关的关键词、话题标签以及视频元数据,旨在为研究者提供一个全面的多模态数据集,以分析TikTok在选举传播中的作用。该数据集的发布不仅为政治传播研究提供了新的视角,也为理解年轻选民的选举态度和行为提供了宝贵的数据支持。
当前挑战
该数据集在构建过程中面临多项挑战。首先,TikTok Research API的限制使得数据抓取过程复杂且效率低下,例如API调用频率限制和每次调用仅能获取100条记录的限制。其次,由于API生成的视频字幕数据较少,研究团队需要借助第三方工具(如Whisper)生成更多字幕数据,以丰富语言分析的内容。此外,数据集中存在部分时间段的缺失数据,研究团队正在通过第三方抓取工具填补这些空白。最后,由于TikTok平台的内容多样性和快速变化,研究者需要不断更新关键词和话题标签,以确保数据集的时效性和全面性。这些挑战不仅影响了数据集的完整性,也对后续的数据分析提出了更高的要求。
常用场景
经典使用场景
TikTok 2024 U.S. Presidential Election Dataset 主要用于分析和研究2024年美国总统选举期间TikTok平台上的政治讨论和舆论趋势。该数据集通过收集与选举相关的视频和文本数据,提供了对选举期间政治话语的全面洞察。研究者可以利用该数据集分析不同候选人的支持率、选民情绪的变化以及社交媒体在选举中的影响力。
衍生相关工作
基于该数据集,研究者可以进一步开展多项相关工作。例如,可以开发情感分析模型,评估选民对不同候选人的情感倾向;也可以构建预测模型,预测选举结果或特定事件对选民情绪的影响。此外,该数据集还可以用于跨平台比较研究,分析TikTok与其他社交媒体平台在选举讨论中的差异。这些衍生工作将进一步丰富我们对社交媒体在选举中作用的认识。
数据集最近研究
最新研究方向
随着社交媒体在选举政治中的重要性日益凸显,TikTok 2024 U.S. Presidential Election Dataset 成为了研究选举舆情和政治传播的前沿工具。该数据集通过收集2024年美国总统选举期间TikTok平台上的180万条视频数据,涵盖了从2023年11月1日至2024年5月26日的内容,提供了多模态的数据分析视角。研究者通过TikTok Research API和第三方爬虫工具,捕捉了与选举相关的热门关键词、标签和双词组,特别是针对两位主要候选人乔·拜登和唐纳德·特朗普的内容。该数据集不仅揭示了TikTok在年轻选民中的影响力,还为研究选举期间的舆论动态、信息传播和政治参与提供了宝贵的资源。未来,研究将进一步利用第三方工具和视频分析模型,如Video-LLaMa,以填补数据空白并深化对选举期间社交媒体行为的理解。
相关研究论文
  • 1
    Tracking the 2024 US Presidential Election Chatter on Tiktok: A Public Multimodal Dataset南加州大学HUMANS实验室 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作