Twitter-Weibo-DataSet-For-Representaitve-Users

github2020-11-17 更新2024-05-31 收录

下载链接：

https://github.com/DuncanZhou/Twitter-Weibo-DataSet-For-Representaitve-Users

下载链接

链接失效反馈

官方服务：

资源简介：

论文中抓取以及标注的代表性人物数据集

A dataset of representative figures extracted and annotated from academic papers.

创建时间：

2019-01-22

原始信息汇总

TwitterUsersProfiling 数据集概述

实验步骤

[step1]

尝试基于混合属性的聚类方法
对聚类方法进行优化,提高效率

[step2]

在聚类结果中进行搜索,找出profile子集
对搜索过程进行优化,提高效率

[step3]

已完成对比方法：
1. 最朴素的LocalSearch
2. 先用k-mediods聚类,然后在质点的最近邻进行搜索添加代表性向量,多次迭代

[step4]

下一步计划：
1. 完成Affinity Propagation的方法
2. 阅读矩阵求解方法

方法更新（8-17日）

提出的方法

先贪心算法+回溯法(减枝)

对比方法

局部搜索算法(LocalSearch)
启发式算法(SA)
聚类算法(k-medoids)
PageRank

已完成

启发式算法
聚类算法
本论文提出方法

待完成

PageRank
局部搜索算法

2019年1月更新

改进

对Affinity Propagation算法改进，加入了拓扑关系进行聚类。
在聚类完之后对有偏差的点进行偏移。
使用社区发现算法找到社区团。
对于稀疏的点未构成社区的点进行DFS搜索形成新的社区来加速后面的采样。
采样方法中加入了上界进行剪枝。

搜集汇总

数据集介绍

构建方式

Twitter-Weibo-DataSet-For-Representaitve-Users数据集的构建采用了多步骤的聚类和优化策略。初始阶段，研究者尝试了基于混合属性的聚类方法，并对聚类过程进行了效率优化。随后，通过搜索聚类结果中的profile子集，进一步优化了搜索过程。在对比实验中，采用了包括LocalSearch、k-medoids聚类以及Affinity Propagation等多种算法，并对Affinity Propagation算法进行了改进，加入了拓扑关系进行聚类，同时对聚类结果中的偏差点进行了偏移处理。此外，还应用了社区发现算法和DFS搜索来形成新的社区，以加速采样过程。

特点

该数据集的特点在于其采用了多种先进的聚类和优化算法，如Affinity Propagation、k-medoids聚类、社区发现算法等，以确保能够从大量Twitter用户中准确地识别出有代表性的用户。数据集还特别关注了聚类过程中的偏差问题，通过偏移处理提高了聚类的准确性。此外，数据集在采样方法中引入了上界剪枝技术，进一步提升了数据处理的效率。

使用方法

使用Twitter-Weibo-DataSet-For-Representaitve-Users数据集时，研究者可以首先应用提供的聚类算法对用户数据进行初步分类，然后通过优化后的搜索策略识别出具有代表性的用户子集。在数据处理过程中，可以利用改进后的Affinity Propagation算法和社区发现算法来增强聚类的准确性和效率。此外，采样方法中的上界剪枝技术可以帮助研究者更高效地处理大规模数据，从而加速研究进程。

背景与挑战

背景概述

Twitter-Weibo-DataSet-For-Representaitve-Users数据集由研究人员于2019年创建，旨在从海量Twitter用户中识别出具有代表性的用户群体。该数据集的核心研究问题聚焦于用户画像的构建与代表性用户的筛选，通过混合属性聚类、社区发现算法等多种方法，优化用户分类与筛选过程。这一研究不仅推动了社交媒体用户行为分析的深入，也为个性化推荐、舆情监控等领域提供了重要的数据支持。

当前挑战

该数据集在构建过程中面临多重挑战。首先，如何在庞大的用户数据中高效地筛选出代表性用户，是一个复杂的计算问题，尤其是在处理高维数据和稀疏数据时，传统的聚类算法往往难以奏效。其次，用户行为的多样性和动态变化使得用户画像的构建充满不确定性，如何准确捕捉用户的代表性特征成为一大难题。此外，数据集的构建还需要解决算法效率与精度之间的平衡问题，尤其是在面对大规模数据时，算法的计算复杂度显著增加，如何在保证结果准确性的同时提升计算效率，是研究人员亟需解决的问题。

常用场景

经典使用场景

在社交媒体分析领域，Twitter-Weibo-DataSet-For-Representaitve-Users数据集被广泛用于识别和分类具有代表性的用户。通过高级聚类算法和优化搜索技术，研究人员能够从海量的社交媒体用户中筛选出具有特定特征或影响力的用户群体，这对于理解社交媒体上的信息传播模式和用户行为具有重要意义。

衍生相关工作

基于该数据集的研究成果，已经衍生出多项相关经典工作，包括改进的聚类算法、更高效的搜索策略以及新的社区发现技术。这些工作不仅推动了社交媒体分析领域的发展，也为其他相关领域如推荐系统和网络科学提供了新的研究视角和方法。

数据集最近研究