Kaggle-Competition-Influencers-in-Social-Networks-Twitter-Dataset

github2021-11-29 更新2024-05-31 收录

下载链接：

https://github.com/suprithIUB/Kaggle-Competition-Influencers-in-Social-Networks-Twitter-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于预测Twitter上谁更受欢迎，包含22个特征，每个数据点代表两个用户‘A’和‘B’，各有11个特征。训练集包含5500个数据点，测试集包含5952行。这是一个二分类问题，预测哪个用户更有影响力。训练集中的数据是人工判断的，没有类别不平衡问题。

This dataset is designed for predicting which user is more popular on Twitter, comprising 22 features, with each data point representing two users, 'A' and 'B', each having 11 features. The training set includes 5500 data points, and the test set contains 5952 entries. It is a binary classification problem aimed at predicting which user has more influence. The data in the training set is manually judged, and there is no issue of class imbalance.

创建时间：

2015-11-23

原始信息汇总

数据集概述

数据集名称

Kaggle-Competition-Influencers-in-Social-Networks-Twitter-Dataset

问题陈述

预测Twitter上两个用户中谁更受欢迎。

数据集描述

特征数量：22个特征
- 每个数据点代表两个用户‘A’和‘B’，各有11个特征
数据集大小：
- 训练集：5500个数据点
- 测试集：5952个数据点
分类问题：二分类
- 预测人类判断谁更有影响力，‘A’或‘B’
- 类别标签：
  - 1：表示‘A’更受欢迎
  - 0：表示‘B’更受欢迎
数据性质：人类判断
- 训练集包含约350个重复数据点，特征值完全相同但类别标签不同
类别分布：
- 类别0：48.83%
- 类别1：51.16%

特征缩放

使用标准归一化公式对数据集进行归一化处理
- 所有特征重新缩放到范围[0, 1]

性能评估

测试集不包含类别标签
使用AUC值作为评估指标，通过Kaggle平台展示每次提交的结果
模型准确性通过训练集上的交叉验证技术进行测量
每个分类器在测试集上的预测准确性通过Kaggle的AUC指标进行评估

搜集汇总

数据集介绍

构建方式

该数据集构建于社交网络影响力分析的背景下，旨在通过Twitter用户数据预测用户之间的影响力差异。数据集的构建基于人类判断，每个数据点包含两个用户‘A’和‘B’，每个用户具有11个特征，共计22个特征。训练集包含5500个数据点，测试集包含5952个数据点。数据经过标准化处理，所有特征被重新缩放到[0, 1]范围内，以确保模型训练的稳定性。

特点

该数据集的特点在于其专注于社交网络中的影响力预测问题，属于二分类任务。每个数据点代表两个用户，通过11个特征描述其社交行为。训练集中存在少量重复数据，但这些重复数据的标签可能不同，增加了数据集的复杂性。数据集的类别分布较为均衡，标签0和1的比例分别为48.83%和51.16%，避免了类别不平衡问题。

使用方法

该数据集的使用方法主要围绕二分类模型的训练与评估展开。用户可以通过训练集训练模型，并使用测试集进行预测。由于测试集未提供真实标签，模型性能通过Kaggle平台提供的AUC指标进行评估。此外，用户还可以使用交叉验证技术对训练集进行模型性能的初步评估，以确保模型的泛化能力。

背景与挑战

背景概述

Kaggle-Competition-Influencers-in-Social-Networks-Twitter-Dataset数据集由Kaggle平台发布，旨在解决社交媒体网络中影响力预测的核心问题。该数据集创建于社交媒体分析领域迅速发展的背景下，主要研究人员和机构通过Twitter平台上的用户数据，构建了一个包含22个特征的数据集，用于预测两位用户中谁更具影响力。数据集包含5500个训练样本和5952个测试样本，采用二分类任务形式，标签由人工判断生成。该数据集为社交媒体影响力分析提供了重要的基准，推动了相关领域的研究进展。

当前挑战

该数据集面临的主要挑战包括两方面：其一，社交媒体影响力预测本身具有高度复杂性，用户行为、内容传播模式等因素难以通过有限的22个特征完全捕捉；其二，数据集中存在约350个重复样本，这些样本的特征值完全相同但标签不同，可能导致模型训练时的混淆。此外，尽管数据集在类别分布上较为平衡，但如何有效处理特征之间的非线性关系以及提升模型的泛化能力，仍是研究人员需要解决的关键问题。

常用场景

经典使用场景

在社交网络分析领域，Kaggle-Competition-Influencers-in-Social-Networks-Twitter-Dataset被广泛用于研究Twitter平台上用户影响力的预测。该数据集通过提供5500个训练数据点和5952个测试数据点，每个数据点包含两个用户的11个特征，为研究者提供了一个标准化的平台来开发和测试影响力预测模型。这些模型通常用于识别和预测哪些用户更有可能成为社交网络中的意见领袖。

衍生相关工作

基于该数据集，研究者们已经开发了多种影响力预测模型，包括基于机器学习和深度学习的算法。这些模型不仅在Kaggle竞赛中取得了优异的成绩，还被应用于实际的社交网络分析项目中。此外，该数据集也激发了关于用户行为分析和社交网络动态的进一步研究，推动了社交网络分析领域的发展。

数据集最近研究