Trending Topics on Twitter Dataset
收藏github2018-03-13 更新2024-05-31 收录
下载链接:
https://github.com/lore10/Detection-of-Trending-Topic-Communities_Datasets-Code
下载链接
链接失效反馈官方服务:
资源简介:
该数据集专门用于收集Twitter上趋势话题的信息,包含1,036个趋势话题,关联到567,452条推文和348,757个不同用户。此外,为了形成图并检测趋势话题社区,还需要内容创作者和分发者之间的关注关系,这些数据通过查询Twitter API收集。
This dataset is specifically designed for collecting information on trending topics on Twitter, encompassing 1,036 trending topics, linked to 567,452 tweets and 348,757 distinct users. Additionally, to form graphs and detect communities of trending topics, it also includes the follow relationships between content creators and distributors, which are gathered through queries to the Twitter API.
创建时间:
2017-05-06
原始信息汇总
数据集概述
数据集名称
Detection-of-Trending-Topic-Communities_Datasets-Code
数据集内容
- creators.json:包含所有1036个趋势话题的推文创建者信息。
- distributors.json:包含所有1036个趋势话题的推文转发者信息。
- unique_users_Creators_Distrib_perTopic368.json:包含项目中368个趋势话题的创建者和转发者的唯一ID。
- trending_topics_list368.json:项目中368个趋势话题的列表。
- Retweeting_graphs368:应用RBC方法后生成的转发图,每话题有json和gexf两种格式。
- Following_graphs_Creators368:检测“创建者之间的关注关系”后生成的图,每话题有json和gexf两种格式。
- Following_graphs_Distributors368:检测“转发者之间的关注关系”后生成的图,每话题有json和gexf两种格式。
- Our_Method_TretocGraphs368:应用TreToc方法后生成的图,每话题有json和gexf两种格式。
- Graphs_Extraction.ipynb:用于创建RBC和TreToc方法图的源代码。
- Community_Detection_Metrics.ipynb:用于计算验证所提方法指标的源代码。
- Data_Analysis_Results.numbers:展示获得结果的数据。
数据集来源
该数据集是针对Twitter上的趋势话题构建的,包含1036个趋势话题,关联到567,452条推文和348,757个不同用户。数据集的详细信息可在线获取于http://nlp.uned.es/~damiano/datasets/TT-classification.html。
数据集用途
用于检测趋势话题社区,特别是连接内容创建者和转发者的研究。
相关文献
Lorena Recalde, David F. Nettleton, Ricardo Baeza-Yates and Ludovico Boratto. 2017. Detection of Trending Topic Communities: Bridging Content Creators and Distributors. In Proceedings of HT ’17, Prague, Czech Republic, July 04-07, 2017, 9 pages. https://doi.org/http://dx.doi.org/10.1145/3078714.3078735
搜集汇总
数据集介绍

构建方式
Trending Topics on Twitter Dataset的构建,是基于Twitter平台上的热门话题信息,通过收集与这些话题相关的推文及其用户信息,并进一步通过Twitter API获取内容创作者之间的‘关注关系’以及内容传播者之间的‘关注关系’。这一过程涉及对1036个热门话题的深入挖掘,其中包含了567,452条推文和348,757名用户,以及368个话题的‘关注关系’数据,以满足特定研究方法的需求。
特点
该数据集的特点在于,它不仅包含了推文内容和用户信息,还特别关注了用户间的社交网络关系,即‘关注关系’。这种关系的引入,使得数据集在分析热门话题社区时,能更准确地捕捉到话题的传播网络和关键影响力用户。此外,数据集涵盖了特定政治事件的时间序列数据,为研究社会媒体在特定事件中的影响力提供了丰富的素材。
使用方法
使用该数据集时,用户首先需要理解数据集中的不同文件及其对应的关系图。这些文件包括推文创作者和传播者的信息、独特的用户ID列表、话题列表以及由不同方法生成的图文件。用户可通过提供的Jupyter笔记本代码来复现实验,包括图的生成、社区检测以及相关的度量计算,以验证所提出的方法的有效性。
背景与挑战
背景概述
Trending Topics on Twitter Dataset是由Zubiaga, A., Spina, D., Fresno, V.和Martínez, R.等研究人员构建的,旨在针对Twitter上的热门话题进行深入研究。该数据集收集了1,036个热门话题,关联至567,452条来自348,757名不同用户的推文。此数据集的创建,为研究Twitter上热门话题的动态及其社区结构提供了重要资源,对于理解信息在社交网络中的传播机制具有显著意义。该数据集的研究成果已发布于2017年的HT '17会议论文《Detection of Trending Topic Communities: Bridging Content Creators and Distributors》中。
当前挑战
该数据集在构建过程中遇到了诸多挑战,首先是如何有效地从Twitter API中获取大量的用户关注关系数据,由于API调用次数的限制,仅收集了前368个热门话题的相关数据。其次,构建过程中需要处理的数据量巨大,涉及到的图计算和社区检测算法的效率与准确性成为一大挑战。此外,如何准确识别和划分热门话题社区,以及如何评价所提出方法的性能,也是该数据集研究中的关键挑战。
常用场景
经典使用场景
Trending Topics on Twitter Dataset数据集的构建旨在捕捉Twitter上热门话题的信息,其经典使用场景在于分析Twitter内容创建者与传播者之间的关联。该数据集通过收集推文及其用户信息,以及通过Twitter API获取的关注关系数据,为研究推文趋势社区的检测提供了坚实基础。
衍生相关工作
基于该数据集,已衍生出多项相关工作,如Lorena Recalde等人2017年的研究《Detection of Trending Topic Communities: Bridging Content Creators and Distributors》,该研究提出了一种结合内容创建者和传播者的趋势话题社区检测方法,为社交网络分析领域提供了新的研究视角和方法论。
数据集最近研究
最新研究方向
在社交媒体研究领域,Trending Topics on Twitter Dataset数据集针对Twitter平台上的热点话题进行了深入分析。该数据集最新研究方向聚焦于桥梁内容创作者与传播者之间的关联,通过构建用户关注关系图,对趋势话题社区进行检测。研究利用了1036个趋势话题及其相关推文和用户数据,不仅考察了推文内容,还通过Twitter API获取了用户间的关注关系。这一研究对于理解信息在社交媒体中的传播机制具有重要影响,为社交媒体分析和话题挖掘领域提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成



