vargr/main_instagram
收藏Hugging Face2023-07-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vargr/main_instagram
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: sid
dtype: int64
- name: sid_profile
dtype: int64
- name: shortcode
dtype: string
- name: profile_id
dtype: int64
- name: date
dtype: string
- name: post_type
dtype: int64
- name: description
dtype: string
- name: likes
dtype: int64
- name: comments
dtype: int64
- name: username
dtype: string
- name: bio
dtype: string
- name: following
dtype: int64
- name: followers
dtype: int64
- name: num_posts
dtype: int64
- name: is_business_account
dtype: bool
- name: lang
dtype: string
- name: description_category
dtype: string
- name: description_grade
dtype: float64
- name: image_grade
dtype: float64
- name: path
dtype: string
splits:
- name: train
num_bytes: 263209721
num_examples: 605868
download_size: 158703728
dataset_size: 263209721
---
# Dataset Card for "main_instagram"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征字段:
- 字段名:sid,数据类型:int64
- 字段名:sid_profile,数据类型:int64
- 字段名:短代码(shortcode),数据类型:string
- 字段名:用户档案ID(profile_id),数据类型:int64
- 字段名:发布日期(date),数据类型:string
- 字段名:帖子类型(post_type),数据类型:int64
- 字段名:帖子描述(description),数据类型:string
- 字段名:点赞数(likes),数据类型:int64
- 字段名:评论数(comments),数据类型:int64
- 字段名:用户名(username),数据类型:string
- 字段名:用户简介(bio),数据类型:string
- 字段名:关注数(following),数据类型:int64
- 字段名:粉丝数(followers),数据类型:int64
- 字段名:总发帖数(num_posts),数据类型:int64
- 字段名:是否为商业账号(is_business_account),数据类型:bool
- 字段名:语言(lang),数据类型:string
- 字段名:描述分类(description_category),数据类型:string
- 字段名:描述评分(description_grade),数据类型:float64
- 字段名:图片评分(image_grade),数据类型:float64
- 字段名:文件路径(path),数据类型:string
数据集划分:
- 划分名称:训练集(train),字节大小:263209721,样本数量:605868
下载大小:158703728 字节
数据集总大小:263209721 字节
---
# 「main_instagram」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
vargr
原始信息汇总
数据集概述
数据集名称
- 名称:main_instagram
数据集特征
- sid:整数类型
- sid_profile:整数类型
- shortcode:字符串类型
- profile_id:整数类型
- date:字符串类型
- post_type:整数类型
- description:字符串类型
- likes:整数类型
- comments:整数类型
- username:字符串类型
- bio:字符串类型
- following:整数类型
- followers:整数类型
- num_posts:整数类型
- is_business_account:布尔类型
- lang:字符串类型
- description_category:字符串类型
- description_grade:浮点数类型
- image_grade:浮点数类型
- path:字符串类型
数据集分割
- 训练集:
- 数据量:263209721 字节
- 样本数:605868
数据集大小
- 下载大小:158703728 字节
- 数据集总大小:263209721 字节
搜集汇总
数据集介绍

构建方式
在社交媒体分析领域,vargr/main_instagram数据集通过系统化采集Instagram平台上的公开数据构建而成。该数据集整合了用户发布的帖子内容、元数据及个人资料信息,涵盖了帖子描述、互动指标如点赞与评论数,以及用户属性包括关注者数量和账户类型等。数据经过结构化处理,确保每个样本包含统一的特征字段,并划分为训练集以支持机器学习任务,体现了从原始社交数据到规范化数据资源的转化过程。
特点
vargr/main_instagram数据集的特点在于其多维度的社交媒体信息覆盖,不仅包含文本描述和用户生成内容,还融入了图像评分与语言分类等高级标注。数据集通过描述类别和评分字段,提供了内容质量与主题的量化指标,同时用户资料中的商业账户标识和互动数据,为研究社交行为、影响力分析和内容推荐等方向提供了丰富特征。这种综合性的设计使得数据集能够支持跨模态分析与复杂模型训练。
使用方法
该数据集适用于自然语言处理、计算机视觉及社交网络分析等多个研究方向。用户可通过加载训练集进行模型训练,利用帖子描述和图像路径字段进行文本与视觉特征的提取,结合互动指标和用户属性进行预测或分类任务。在实际应用中,建议先预处理数据以确保一致性,例如处理缺失值或标准化评分字段,从而充分发挥其在内容理解、用户行为建模等方面的潜力。
背景与挑战
背景概述
在社交媒体分析领域,Instagram作为全球领先的图像与短视频分享平台,其海量用户生成内容为计算社会科学、数字营销及多媒体理解研究提供了丰富的数据资源。vargr/main_instagram数据集由相关研究团队于近年构建,旨在系统化采集并标注Instagram公开帖文与用户档案信息,核心研究问题聚焦于探索多模态内容(如文本描述与图像)的质量评估、用户行为模式挖掘以及社交影响力分析。该数据集的建立显著推动了社交媒体内容自动评级、用户画像构建及跨语言文化比较等研究方向的发展,为学术界和工业界提供了标准化的大规模实证分析基础。
当前挑战
该数据集致力于应对社交媒体内容质量评估与用户行为建模的复杂性挑战,具体包括如何从异构多模态数据中提取有效特征以量化内容质量,以及如何在动态演变的社交语境下准确识别用户属性与互动模式。在构建过程中,研究者面临数据采集的伦理与隐私合规性难题,需平衡公开数据利用与用户信息保护;同时,处理非结构化文本描述与图像的多模态对齐、跨语言内容的一致性标注,以及大规模数据清洗与去噪,均是实现数据集高可靠性与可用性的关键障碍。
常用场景
经典使用场景
在社交媒体分析领域,vargr/main_instagram数据集凭借其丰富的元数据特征,为研究Instagram平台上的用户行为与内容传播提供了经典范例。该数据集整合了帖子描述、互动指标及用户画像信息,常被用于构建机器学习模型,以探索内容质量与用户参与度之间的关联,或分析多模态数据在社交网络中的协同效应。
实际应用
在实际应用中,vargr/main_instagram数据集支持品牌营销策略的优化,通过分析帖子描述类别与互动数据,可精准识别高影响力内容特征。同时,该数据集也为平台内容审核机制的设计提供参考,辅助检测异常行为或评估信息传播风险,从而增强社交媒体生态的治理效能。
衍生相关工作
基于该数据集衍生的经典工作,主要集中在用户画像构建与内容推荐系统的改进上。例如,结合描述类别与图像评分的多模态融合研究,提升了内容个性化推送的准确性;而利用互动指标预测用户参与度的模型,则进一步推动了社交网络分析算法在实时性与可扩展性方面的创新。
以上内容由遇见数据集搜集并总结生成



