vargr/private_instagram
收藏Hugging Face2023-07-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vargr/private_instagram
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: sid
dtype: int64
- name: sid_profile
dtype: int64
- name: post_id
dtype: string
- name: profile_id
dtype: int64
- name: date
dtype: string
- name: post_type
dtype: int64
- name: description
dtype: string
- name: likes
dtype: int64
- name: comments
dtype: int64
- name: username
dtype: string
- name: bio
dtype: string
- name: following
dtype: int64
- name: followers
dtype: int64
- name: num_posts
dtype: int64
- name: is_business_account
dtype: bool
- name: lang
dtype: string
- name: category
dtype: string
splits:
- name: train
num_bytes: 7174313392
num_examples: 17210370
download_size: 2667007043
dataset_size: 7174313392
---
# Dataset Card for "private_instagram"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
dataset_info:
特征字段:
- 字段名:sid,数据类型:int64(64位整数)
- 字段名:sid_profile,数据类型:int64(64位整数)
- 字段名:post_id,数据类型:字符串
- 字段名:profile_id,数据类型:int64(64位整数)
- 字段名:date,数据类型:字符串
- 字段名:post_type,数据类型:int64(64位整数)
- 字段名:description,数据类型:字符串
- 字段名:likes,数据类型:int64(64位整数)
- 字段名:comments,数据类型:int64(64位整数)
- 字段名:username,数据类型:字符串
- 字段名:bio,数据类型:字符串
- 字段名:following,数据类型:int64(64位整数)
- 字段名:followers,数据类型:int64(64位整数)
- 字段名:num_posts,数据类型:int64(64位整数)
- 字段名:is_business_account,数据类型:布尔值
- 字段名:lang,数据类型:字符串
- 字段名:category,数据类型:字符串
数据划分:
- 名称:train,占用字节数:7174313392,样本数量:17210370
下载大小:2667007043
数据集大小:7174313392
---
# "private_instagram"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
vargr
原始信息汇总
数据集概述
数据集名称
- 名称:private_instagram
数据集特征
- sid (int64)
- sid_profile (int64)
- post_id (string)
- profile_id (int64)
- date (string)
- post_type (int64)
- description (string)
- likes (int64)
- comments (int64)
- username (string)
- bio (string)
- following (int64)
- followers (int64)
- num_posts (int64)
- is_business_account (bool)
- lang (string)
- category (string)
数据集分割
- train
- 数据量:17210370个样本
- 存储大小:7174313392字节
数据集大小
- 下载大小:2667007043字节
- 数据集总大小:7174313392字节
搜集汇总
数据集介绍

构建方式
在社会科学与人机交互领域,vargr/private_instagram数据集的构建采取了对私密Instagram账号的帖子及其相关信息的采集。数据集涵盖用户的基本信息、帖子详情、互动数据等多个维度,通过自动化脚本对指定账号进行数据爬取,确保了数据采集的全面性与时效性。
特点
该数据集显著的特征在于其包含了私密账号的数据,这在公开数据集中较为罕见。它不仅包含了用户的帖子内容、发布时间、互动(点赞和评论)数量,还涵盖了用户的个人资料信息,如用户名、简介、关注与粉丝数等。此外,数据集对帖子类型、语言和分类也进行了标注,为研究提供了丰富的视角。
使用方法
用户在使用vargr/private_instagram数据集时,需先通过HuggingFace的接口进行下载。数据集分为训练集,便于用户进行模型训练、数据分析等任务。数据字段清晰定义,易于导入至数据处理框架中,支持Python等主流编程语言,使得研究者在进行社交网络分析、用户行为预测等研究时能够高效利用该数据集。
背景与挑战
背景概述
在社交媒体数据挖掘领域,‘vargr/private_instagram’数据集应运而生,旨在为研究者提供深入了解私人Instagram账户行为的数据资源。该数据集由vargr团队创建于近年,汇集了大量的用户个人信息、帖子内容及其互动数据。其主要研究人员通过对社交网络行为的深入剖析,试图解答关于用户隐私设置、社交互动模式等核心研究问题,对社交媒体数据分析领域产生了显著影响。
当前挑战
该数据集在构建过程中遭遇了诸多挑战,首要的是如何合规地获取并处理私人账户的数据,确保研究过程的合法性与伦理性。此外,数据集在解决领域问题,如用户行为分析、社交网络挖掘等方面,面临着如何有效提取用户特征、处理高维度数据以及保持数据隐私和安全的挑战。
常用场景
经典使用场景
在社会科学与人机交互领域,vargr/private_instagram数据集的经典使用场景在于分析社交媒体用户行为模式与社交网络结构。通过细致记录用户的基本信息、帖子内容及其互动数据,研究者能够深入探究个体如何在私人社交媒体上构建身份、维护人际关系以及进行信息交流。
实际应用
在商业领域,该数据集可用于分析用户偏好、行为模式,进而帮助企业优化社交媒体营销策略。而在安全领域,通过对用户行为的深入理解,可以辅助识别和预防网络欺诈等不法行为。
衍生相关工作
基于vargr/private_instagram数据集,研究者们已经开展了一系列相关工作,如用户行为预测、社交网络分析、情感分析等。这些研究不仅拓宽了数据集的应用范围,也推动了相关领域的理论发展与技术创新。
以上内容由遇见数据集搜集并总结生成



