InstaFake Dataset

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/fcakyon/instafake-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于检测Instagram虚假和自动化账户的数据集，包含两组JSON文件，分别用于检测虚假账户和自动化账户，并详细列出了各自的特征。

A dataset designed for detecting fake and automated accounts on Instagram, comprising two sets of JSON files, each tailored for identifying fake accounts and automated accounts, with detailed listings of their respective characteristics.

创建时间：

2019-09-13

原始信息汇总

数据集概述

数据集名称

名称: InstaFake Dataset: An Instagram fake and automated account detection dataset
别名: InstaFake Dataset

数据集描述

描述: The InstaFake Dataset is comprised of anonymized Instagram user data collected by Fatih Cagatay Akyon and Esat Kalfaoglu over the second half of 2018. We’re releasing this dataset publicly to aid the research community in making advancements in machine learning based social media analysis.

数据集结构

Fake Account Detection:
- user_media_count
- user_follower_count
- user_following_count
- user_has_profil_pic
- user_is_private
- user_biography_length
- username_length
- username_digit_count
- is_fake
Automated Account Detection:
- user_media_count
- user_follower_count
- user_following_count
- user_has_highlight_reels
- user_has_url
- user_biography_length
- username_length
- username_digit_count
- media_comment_numbers
- media_comments_are_disabled
- media_has_location_info
- media_hashtag_numbers
- media_upload_times
- automated_behaviour

数据集元数据

提供者: Fatih C. Akyon and Esat Kalfaoglu
许可证: Attribution-NonCommercial
许可证URL: https://creativecommons.org/licenses/by-nc/4.0/

数据集导入

使用import_data函数从utils模块导入数据集。
需要设置dataset_path和dataset_version参数。

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，InstaFake数据集的构建基于对Instagram用户数据的匿名化处理。该数据集由Fatih Cagatay Akyon和Esat Kalfaoglu在2018年下半年收集，涵盖了用户的基本信息、社交互动数据以及内容特征。通过系统化的数据采集和标注，数据集分为两部分：假账户检测和自动化账户检测，每部分均包含详细的用户和媒体特征，如用户名长度、粉丝数量、发布内容的时间戳等。

特点

InstaFake数据集的显著特点在于其多维度的特征设计，不仅包括用户的基本信息，还涵盖了社交媒体互动的细节，如评论数量、是否关闭评论功能等。此外，数据集的标签明确，区分了假账户和自动化账户，为研究者提供了清晰的分类标准。这种结构化的数据设计使得该数据集在社交媒体分析和机器学习研究中具有广泛的应用潜力。

使用方法

使用InstaFake数据集时，首先需通过miniconda创建并激活名为'instafake'的虚拟环境，并安装所需的依赖包。随后，可以通过调用'utils'模块中的'import_data'函数，指定数据集路径和版本，将数据导入为pandas数据框。数据集的结构清晰，用户可根据需求选择不同的数据子集进行分析，从而在社交媒体假账户和自动化账户检测的研究中发挥作用。

背景与挑战

背景概述

在社交媒体分析领域，识别虚假和自动化账户是一个关键的研究问题。InstaFake数据集由Fatih Cagatay Akyon和Esat Kalfaoglu于2018年下半年创建，旨在为机器学习在社交媒体分析中的应用提供支持。该数据集包含了匿名的Instagram用户数据，涵盖了用户行为、账户特征等多个维度，旨在帮助研究者开发更有效的虚假和自动化账户检测算法。通过公开发布，InstaFake数据集为相关领域的研究提供了宝贵的资源，推动了社交媒体分析技术的进步。

当前挑战

InstaFake数据集在构建过程中面临了多个挑战。首先，收集和匿名化社交媒体数据需要严格遵守隐私和数据保护法规，确保用户信息的安全。其次，虚假和自动化账户的行为模式复杂多变，如何准确捕捉这些特征并构建有效的分类模型是一个技术难题。此外，数据集的规模和多样性也对模型的泛化能力提出了挑战。这些挑战不仅影响了数据集的质量，也直接关系到基于该数据集的研究成果的可靠性和实用性。

常用场景

经典使用场景

在社交媒体分析领域，InstaFake数据集的经典使用场景主要集中在假账户和自动化账户的检测上。通过分析用户特征如帖子数量、粉丝数、关注数、是否拥有个人资料图片等，研究人员能够构建机器学习模型，以识别和区分真实用户与虚假或自动化账户。这种分析不仅有助于提升社交媒体平台的用户体验，还能有效防止欺诈和垃圾信息传播。

实际应用

在实际应用中，InstaFake数据集被广泛用于社交媒体平台的账户审核和安全监控。通过训练和部署基于该数据集的检测模型，平台可以自动识别和处理虚假或自动化账户，从而提高平台的整体安全性和用户体验。此外，该数据集还被用于教育和培训，帮助数据科学家和机器学习工程师掌握社交媒体分析的最新技术。

衍生相关工作

基于InstaFake数据集，研究人员已经开展了一系列相关工作，包括开发新的假账户检测算法、优化自动化账户识别模型，以及探索用户行为模式分析。这些工作不仅提升了检测模型的准确性和效率，还为社交媒体平台的账户管理提供了新的工具和方法。此外，该数据集还激发了更多关于社交媒体数据隐私和伦理的研究，推动了相关领域的学术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集