SMM Panels Datasets

github2022-12-21 更新2024-05-31 收录

下载链接：

https://github.com/0xjet/smmpanels

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个版本，一个是原始未处理的数据集，另一个是经过处理的数据集，每个数据集包含58个目录，每个目录下有每日的.csv文件，记录了社交媒体营销服务的详细信息。

This dataset comprises two variants: a raw unprocessed version and a processed version. Each variant includes 58 directories, and each directory contains daily .csv files that record detailed information about social media marketing services.

创建时间：

2022-11-17

原始信息汇总

SMM Panels Datasets 概述

数据集描述

本数据集包含两份版本，均与论文 "An Analysis of Fake Social Media Engagement Services" 相关联。

数据集版本

raw_panels_dataset：未经处理的原始数据集，由面板爬虫收集得到。
panels_dataset：经过处理的数据集，增加了便于分析的额外字段。

数据集结构

两份数据集均包含58个目录，每个目录代表一个SMM面板。
每个面板目录下，每天有一个.csv文件，记录了可用的数据。

原始版本字段

index: 行号。
ID: 服务唯一标识。
Service: 服务名称。
Price/1000: 每1000单位的价格（美元）。
Min: 用户可请求的最小数量。
Max: 用户可请求的最大数量。
Description: 服务描述，常包含服务的额外特征，如来源或持续时间。

处理后版本字段

ID: 服务唯一标识。
Site: 目标平台（如Facebook, Instagram等）。
Product: 提供的产品（如点赞、关注、浏览等）。
Price/1000: 每1000单位的价格（美元）。
Min: 用户可请求的最小数量。
Max: 用户可请求的最大数量。

布尔字段

Active, Real, Bot, No Drip, Drip, Non-drip, No Drop, Drop, Non-drop, Random, Custom, No Refill, Refill, Non-refill, Female, Male, Power, HQ, LQ, No Guarantee, Guarantee, Refund, No refund, Non-refund, Slow, Fast, Instant, Day, Hour, Bundle：这些字段表示服务名称或描述中是否包含相应关键词。

非布尔字段

Geo: 服务来源国家。
From: 仅用于网站流量，指请求头中refer字段中的网站。
Service: 原始面板中的服务名称。

搜集汇总

数据集介绍

构建方式

SMM Panels Datasets的构建基于对社交媒体营销（SMM）面板的爬取与分析。研究团队通过自动化工具对58个SMM面板进行持续监控，每日记录其提供的服务数据。原始数据集（raw_panels_dataset）直接反映了爬取结果，包含服务的ID、名称、价格、最小最大订购量及描述等字段。在此基础上，研究团队进一步处理数据，生成了处理后的数据集（panels_dataset），增加了目标平台、产品类型等字段，并通过关键词提取生成了多个布尔型字段，用于标识服务的特性，如是否为真实用户、是否提供退款等。

特点

该数据集的特点在于其全面性和细致性。它不仅涵盖了多个SMM面板的每日服务数据，还通过关键词提取和分类，生成了丰富的布尔型字段，便于研究者深入分析虚假社交媒体互动服务的特征。处理后的数据集进一步优化了数据结构，增加了目标平台和产品类型等关键信息，使得数据分析更加直观和高效。此外，数据集还包含了服务的来源国家和流量来源等细节，为研究提供了多维度的视角。

使用方法

使用SMM Panels Datasets时，研究者可以根据研究需求选择原始数据集或处理后的数据集。原始数据集适合进行数据清洗和预处理的研究，而处理后的数据集则更适合直接用于分析虚假社交媒体互动服务的特征。研究者可以通过分析布尔型字段，识别不同服务的特性，如是否为真实用户、是否提供退款等。此外，数据集中的目标平台和产品类型字段可以帮助研究者分析不同平台和产品类型的服务差异。通过结合地理信息和流量来源字段，研究者还可以进一步探讨服务的来源和流量分布。

背景与挑战

背景概述

SMM Panels Datasets是由Nevado-Catalan等人于2023年发布的一个关于虚假社交媒体参与服务的数据集，旨在揭示和分析这些服务的运作机制及其对社交媒体生态的影响。该数据集由两个版本组成：未经处理的原始数据集和经过处理的增强版本，分别包含58个社交媒体营销面板的每日数据。研究人员通过爬取这些面板的服务信息，详细记录了服务的价格、数量范围、描述等关键字段，为后续的学术研究和行业分析提供了宝贵的数据支持。该数据集的研究成果发表在《Computers & Security》期刊上，对网络安全和社交媒体治理领域具有重要的参考价值。

当前挑战

SMM Panels Datasets在构建过程中面临多重挑战。首先，虚假社交媒体参与服务的多样性和隐蔽性使得数据采集变得复杂，研究人员需要克服面板的不稳定性和数据缺失问题。其次，原始数据中的描述字段包含大量非结构化信息，如何从中提取有效特征并构建可分析的字段成为数据处理的关键难点。此外，虚假服务的动态变化和面板的频繁更新要求数据集具备实时性和持续性，这对数据采集和更新的技术实现提出了更高要求。最后，如何确保数据的准确性和代表性，避免因面板选择偏差而影响研究结论的普适性，也是该数据集面临的重要挑战。

常用场景

经典使用场景

SMM Panels Datasets 数据集在社交媒体营销领域具有重要应用，特别是在分析虚假社交媒体互动服务方面。研究人员通过该数据集能够深入探讨不同社交媒体平台上虚假互动的定价策略、服务类型及其市场分布。该数据集为学术界提供了一个宝贵的资源，用于研究虚假互动服务的运作机制及其对社交媒体生态系统的影响。

实际应用

在实际应用中，SMM Panels Datasets 数据集为社交媒体平台的安全团队提供了重要的参考依据。通过分析该数据集，平台能够识别并阻断虚假互动服务的来源，从而提升用户体验和平台信誉。此外，该数据集还可用于开发自动化工具，实时监测和打击虚假互动行为，确保社交媒体环境的健康与安全。

衍生相关工作

基于 SMM Panels Datasets 数据集，学术界衍生了一系列经典研究工作。例如，研究人员利用该数据集开发了虚假互动服务的分类模型，能够自动识别不同类型的虚假互动行为。此外，该数据集还被用于研究虚假互动服务的经济学特征，揭示了其市场供需关系及价格波动规律。这些研究不仅推动了社交媒体安全领域的发展，还为相关政策制定提供了科学依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集