twitter dataset|社交媒体分析数据集|用户行为研究数据集
收藏github2020-02-04 更新2024-05-31 收录
下载链接:
https://github.com/zezealp/twitter-dataset
下载链接
链接失效反馈资源简介:
该数据集是为名为User Modeling On Microblogging Websites的博士论文工作收集的,使用Twitter Streaming API在2015年11月4日至2016年1月12日期间收集了用户的实时推文。数据集包含177K用户和37M推文,用于研究识别Twitter上的主题权威。每个推文被分配零个、一个或多个主题。用户和Twitter ID已匿名化以遵守Twitter隐私政策,推文文本也被移除。数据集分为用户、推文和网络三个集合。
This dataset was collected for the doctoral thesis titled 'User Modeling On Microblogging Websites'. It utilized the Twitter Streaming API to gather real-time tweets from users between November 4, 2015, and January 12, 2016. The dataset comprises 177K users and 37M tweets, aimed at researching the identification of topic authorities on Twitter. Each tweet is assigned zero, one, or multiple topics. User and Twitter IDs have been anonymized in compliance with Twitter's privacy policy, and the tweet texts have been removed. The dataset is divided into three collections: users, tweets, and networks.
创建时间:
2019-03-05
原始信息汇总
数据集概述
数据集名称
- twitter dataset
数据收集目的
- 用于名为“User Modeling On Microblogging Websites”的博士论文研究。
数据收集时间
- 2015年11月4日至2016年1月12日。
数据集规模
- 包含177K用户和37M tweets。
数据用途
- 用于研究Twitter上的主题权威识别。
数据内容
- 每个tweet可能分配有零个、一个或多个主题。
- 数据从MongoDB中导出。
- 用户和Twitter IDs已匿名处理以遵守Twitter隐私政策。
- 由于隐私原因,tweet文本已被移除。
数据集结构
- 包含三个集合:users, tweets, 和 network。
- tweets集合被分割成块,需要使用cat命令合并后才能恢复。
数据集样本
- 用户样本:包含_id, statusCount, friendsCount, followersCount, 和 tweet_count。
- tweet样本:包含_id, date, retweetCount, favCount, isRetweet, reTweetedTweetId, reTweetedUserId, hashtags, urls, userid, 和 topics。
- 网络样本:包含_id 和 followers。
引用要求
- 使用此数据集的研究应引用以下论文:
- Alp, Z. Z., & Öğüdücü, Ş. G. (2018). Identifying topical influencers on twitter based on user behavior and network topology. Knowledge-Based Systems, 141, 211-221.
- Alp, Z. Z., & Öğüdücü, Ş. G. (2019). Influence Factorization for identifying authorities in Twitter. Knowledge-Based Systems, 163, 944-954.
AI搜集汇总
数据集介绍

构建方式
该数据集通过Twitter Streaming API实时收集,涵盖了2015年11月4日至2016年1月12日期间的用户推文。数据集包含177,000名用户和3700万条推文,这些数据被存储在MongoDB中,并进行了匿名化处理以符合Twitter的隐私政策。推文文本被移除,而用户和推文的ID也被匿名化。数据集分为三个集合:用户、推文和网络。推文集合被分割成多个部分,使用前需要通过'cat'命令合并。
使用方法
使用该数据集时,首先需将分割的推文文件通过'cat'命令合并。随后,用户可以利用MongoDB查询工具访问数据集中的用户、推文和网络集合。数据集适用于研究社交媒体中的用户行为、社交网络分析以及特定主题下的权威用户识别。使用者应引用相关文献以确保学术诚信。
背景与挑战
背景概述
Twitter数据集是为一项名为“微博网站用户建模”的博士论文工作而收集的。该数据集通过Twitter流API在2015年11月4日至2016年1月12日期间收集了用户的实时推文,包含17.7万名用户和3700万条推文。其核心研究问题在于识别Twitter上的主题权威,这一研究对社交媒体分析和用户行为建模领域具有重要影响。数据集的创建不仅为学术研究提供了丰富的资源,也为后续的社交媒体分析方法论提供了基础。
当前挑战
该数据集在构建过程中面临多重挑战。首先,通过Twitter流API实时收集推文需要处理高并发和数据流的复杂性。其次,为遵守Twitter的隐私政策,用户和推文ID被匿名化,推文文本也被移除,这增加了数据处理的难度。此外,数据集的存储和处理,特别是推文集合的分块和合并,对数据管理技术提出了高要求。这些挑战不仅影响了数据集的可用性,也对后续研究的数据处理和分析方法提出了新的要求。
常用场景
经典使用场景
在社交媒体分析领域,Twitter数据集被广泛应用于用户行为建模和话题权威识别的研究。通过分析用户在特定时间段内的推文、转发、点赞等行为,研究者能够深入理解用户在不同话题上的参与度和影响力。例如,该数据集常用于识别在特定话题领域内的权威用户,从而为社交媒体营销、舆情监控等应用提供数据支持。
解决学术问题
Twitter数据集在学术研究中解决了社交媒体用户行为分析和话题权威识别的关键问题。通过该数据集,研究者能够量化用户在不同话题上的影响力,从而揭示社交媒体网络中的信息传播规律。这一研究不仅深化了对社交媒体用户行为的理解,还为后续的社交媒体算法优化和用户推荐系统提供了理论基础。
实际应用
在实际应用中,Twitter数据集被广泛用于社交媒体营销、舆情监控和品牌管理等领域。通过分析用户在特定话题上的行为,企业可以精准定位目标受众,优化营销策略。此外,政府和非营利组织也可以利用该数据集进行舆情监控,及时了解公众对特定事件或政策的反应,从而做出更有效的决策。
数据集最近研究
最新研究方向
在社交媒体分析领域,Twitter数据集因其丰富的用户行为和网络结构信息,成为研究用户建模和影响力分析的重要资源。最新研究方向主要集中在通过用户行为和网络拓扑结构识别Twitter上的主题权威用户。研究者们利用数据集中的用户互动数据和推文内容,开发了多种算法和模型,如影响力分解技术,以更精确地评估和预测用户在特定主题领域的影响力。这些研究不仅推动了社交媒体用户建模的理论发展,也为实际应用如社交网络营销和舆情监控提供了有力支持。
以上内容由AI搜集并总结生成
