US Politicians Twitter Dataset
收藏github2023-11-17 更新2024-05-31 收录
下载链接:
https://github.com/W43GVG/US-Politicians-Twitter-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
基于Twitter用户名的美国政治家数据集,数据从Wikidata通过SPARQL提取。包含政治家的姓名、Twitter用户名、性别等详细信息,以及可选的账户开始时间、账户ID、Instagram用户名等。
A dataset of U.S. politicians based on Twitter usernames, extracted from Wikidata via SPARQL. It includes detailed information such as the politicians' names, Twitter usernames, genders, and optional details like account creation times, account IDs, and Instagram usernames.
创建时间:
2020-11-16
原始信息汇总
US Politicians Twitter Dataset 概述
数据集描述
数据来源
- 数据集基于美国政治家的Twitter用户名,数据通过SPARQL从Wikidata提取。
变量说明
必选变量
- Name
- Twitter_username
- Sex
可选变量
- Account_start_time
- Account_ID
- Instagram_username
- Facebook_ID
- Birthplace
- Birthday
- Age
- Political_party
数据特点
- 同一政治家可能出现多次,原因包括不同的Twitter或Instagram昵称、曾属于多个政党或与多个Twitter账号ID关联。
- 数据按姓名升序排序。
数据格式
JSON
- 数据集以JSON格式存储,可通过以下命令获取: bash wget https://raw.githubusercontent.com/W43GVG/US-Politicians-Twitter-Dataset/master/dataset.json
CSV
- 数据集以CSV格式存储,包含2964行,可通过以下命令获取: bash wget https://raw.githubusercontent.com/W43GVG/US-Politicians-Twitter-Dataset/master/dataset.csv
数据集更新历史
2021年2月5日
- 新增变量:Facebook_ID
- 修改变量:Account_start_time 改为 Twitter_account_start_time
2020年11月17日
- 新增变量:Birthday 和 Age
- 移除变量:Image
- 修改变量:birth 改为 Birthplace
数据集使用
- 该数据集已被用于构建其他数据集,并被移植到Kaggle平台。
许可证与注意事项
- 数据集遵循 CC0 1.0 Universal (CC0 1.0) Public Domain Dedication 许可证。
- 数据来源于Wikidata,可能存在错误。如发现错误,建议直接在Wikidata上更正,以便在下次更新时修正数据集。
搜集汇总
数据集介绍

构建方式
该数据集基于美国政治人物的Twitter用户名构建,数据通过SPARQL从Wikidata中提取。数据集包含了政治人物的姓名、Twitter用户名、性别等基本信息,并可选地包含账户创建时间、账户ID、Instagram用户名、Facebook ID、出生地、生日、年龄以及所属政党等详细信息。数据经过多次更新和优化,确保准确性和完整性。
特点
该数据集的特点在于其多维度的信息覆盖,不仅包含政治人物的基本信息,还提供了社交媒体账号的详细信息。数据集中的每条记录都经过精心整理,确保数据的准确性和一致性。此外,数据集还支持多种格式的下载,如JSON和CSV,方便用户进行进一步的分析和处理。
使用方法
用户可以通过GitHub克隆该数据集,或直接下载JSON或CSV格式的文件。数据集的使用方法简单直观,用户可以根据需要选择不同的数据格式进行下载和分析。数据集的结构清晰,便于用户快速获取所需信息,并支持进一步的数据挖掘和分析工作。
背景与挑战
背景概述
US Politicians Twitter Dataset 是一个基于美国政治人物Twitter用户名的数据集,数据通过SPARQL从Wikidata中提取。该数据集由W43GVG创建,首次发布于2020年,旨在为研究人员提供关于美国政治人物社交媒体活动的结构化数据。数据集涵盖了政治人物的姓名、Twitter用户名、性别、出生地、生日、年龄、政党等关键信息,部分数据还包括Instagram用户名和Facebook ID。该数据集为政治学、社交媒体分析、以及信息传播研究提供了重要的数据支持,尤其在研究政治人物的社交媒体行为及其影响力方面具有显著价值。
当前挑战
US Politicians Twitter Dataset 面临的主要挑战包括数据完整性与准确性问题。由于数据来源于Wikidata,可能存在信息错误或缺失,例如政治人物的Twitter账户信息不完整或重复。此外,数据集构建过程中还面临数据更新的挑战,政治人物的社交媒体活动频繁变化,数据集需要定期更新以保持时效性。另一个挑战是数据标准化问题,不同政治人物的社交媒体账户可能存在多个别名或重复记录,导致数据清洗和去重工作复杂化。这些挑战需要在数据集的维护和使用过程中加以解决,以确保其研究价值和应用效果。
常用场景
经典使用场景
US Politicians Twitter Dataset 数据集广泛应用于政治学和社会科学领域,特别是在研究美国政治人物的社交媒体行为及其对公众意见的影响方面。研究者通过分析这些政治人物的Twitter账户,可以深入探讨其政治立场、公众互动模式以及信息传播策略。
解决学术问题
该数据集解决了政治传播学中的多个关键问题,如政治人物如何利用社交媒体进行政治宣传、如何与选民互动以及社交媒体对选举结果的影响。通过提供详细的Twitter账户信息,研究者能够量化分析政治人物的在线行为,进而揭示其背后的政治策略和公众影响力。
衍生相关工作
基于该数据集,已有多项经典研究工作得以展开。例如,一些研究通过分析政治人物的Twitter活动,探讨了社交媒体在政治竞选中的作用。此外,还有研究利用这些数据开发了自动化工具,用于监测和预测政治趋势,为政策制定者提供了有力的数据支持。
以上内容由遇见数据集搜集并总结生成



