five

Instagram Influencer Dataset|社交媒体分析数据集|影响者营销数据集

收藏
github2024-04-16 更新2024-05-31 收录
社交媒体分析
影响者营销
下载链接:
https://github.com/ksb2043/instagram_influencer_dataset
下载链接
链接失效反馈
资源简介:
该数据集包含33,935名Instagram影响者及其10,180,500个Instagram帖子(每位影响者300个帖子)。数据集包括两种类型的文件,帖子元数据和图像文件。帖子元数据文件采用JSON格式,包含标题、用户标签、标签、时间戳、赞助、点赞、评论等信息。图像文件采用JPEG格式,数据集中包含12,933,406个图像文件,因为一个帖子可以包含多个图像文件。如果一个帖子只有一个图像文件,则JSON文件和相应的图像文件名称相同;如果一个帖子有多个图像,则JSON文件和相应的图像文件名称不同。因此,还提供了一个JSON-Image映射文件,显示与帖子元数据对应的图像文件列表。影响者被分类为以下九个类别:美容、家庭、时尚、健身、食品、室内、宠物、旅行、其他。

This dataset encompasses 33,935 Instagram influencers and their 10,180,500 Instagram posts (300 posts per influencer). The dataset includes two types of files: post metadata and image files. The post metadata files are in JSON format, containing information such as captions, user tags, hashtags, timestamps, sponsorships, likes, and comments. The image files are in JPEG format, with the dataset comprising 12,933,406 image files, as a single post can include multiple image files. If a post contains only one image file, the JSON file and the corresponding image file share the same name; if a post contains multiple images, the JSON file and the corresponding image files have different names. Consequently, a JSON-Image mapping file is provided, listing the image files corresponding to the post metadata. Influencers are categorized into the following nine categories: beauty, family, fashion, fitness, food, interior, pets, travel, and others.
创建时间:
2020-01-28
原始信息汇总

Instagram Influencer Dataset 概述

数据集基本信息

  • 数据集名称:Instagram Influencer Dataset
  • 数据集下载链接Instagram Influencer Dataset
  • 数据集大小
    • 元数据:约37 GB(JSON格式)
    • 图像文件:约189 GB(JPEG格式)

数据集内容

  • 影响者数量:33,935
  • 帖子数量:10,180,500(平均每个影响者300个帖子)
  • 图像文件数量:12,933,406(单个帖子可能包含多个图像文件)

数据集文件类型

  • 元数据文件:JSON格式,包含信息如标题、用户标签、话题标签、时间戳、赞助信息、点赞数、评论数等。
  • 图像文件:JPEG格式
  • 映射文件:JSON-Image_mapping,用于展示与元数据对应的图像文件列表

影响者分类

影响者被分为以下九个类别:

  1. 美容
  2. 家庭
  3. 时尚
  4. 健身
  5. 食品
  6. 室内
  7. 宠物
  8. 旅行
  9. 其他

引用信息

@inproceedings{kim2020multimodal, title={Multimodal Post Attentive Profiling for Influencer Marketing}, author={Kim, Seungbae and Jiang, Jyun-Yu and Nakada, Masaki and Han, Jinyoung and Wang, Wei}, booktitle={Proceedings of The Web Conference 2020}, pages={2878--2884}, year={2020} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Instagram Influencer Dataset的构建基于对Instagram平台上33,935位影响者的深入分析,每位影响者平均拥有300条帖子,总计10,180,500条帖子。数据集包含两种主要文件类型:帖子元数据和图像文件。帖子元数据以JSON格式存储,详细记录了每条帖子的标题、用户标签、话题标签、时间戳、赞助信息、点赞数、评论数等。图像文件则以JPEG格式保存,由于单条帖子可能包含多张图片,数据集内共有12,933,406张图片。为确保数据关联性,还提供了JSON与图像文件的映射文件,以便准确匹配每条帖子的元数据与对应图像。
使用方法
使用Instagram Influencer Dataset时,研究者可以首先下载数据集,该数据集可通过提供的链接获取。数据集分为帖子元数据和图像文件两部分,研究者可以根据需要选择使用。对于文本分析,可以直接解析JSON格式的元数据文件,提取如标题、标签、时间戳等信息。对于图像分析,可以通过提供的映射文件,将图像与对应的元数据关联起来。此外,数据集的分类标签为研究者提供了基于特定领域的影响者分析的可能性,如针对时尚或食品领域的影响者行为研究。
背景与挑战
背景概述
Instagram Influencer Dataset由Seungbae Kim等人于2020年创建,作为其‘Influencer Marketing Research’项目的一部分,旨在为影响者营销研究提供丰富的数据支持。该数据集包含了33,935名Instagram影响者的10,180,500条帖子,涵盖了从美容到旅行等多个类别,为研究社交媒体影响者的行为模式、内容特征及其对受众的影响提供了宝贵的资源。通过详细的元数据和图像文件,研究者能够深入分析影响者的内容策略及其市场效应,推动了社交媒体营销领域的研究进展。
当前挑战
该数据集在构建过程中面临多项挑战,首先是数据规模庞大,涉及37GB的元数据和189GB的图像文件,对存储和处理能力提出了高要求。其次,由于Instagram帖子的多样性,包括多图帖子和丰富的元数据信息,确保数据的一致性和完整性成为一大难题。此外,影响者的分类和帖子的多模态分析也增加了数据处理的复杂性,要求研究者具备跨学科的技术能力以有效提取和分析数据中的关键信息。
常用场景
经典使用场景
Instagram Influencer Dataset的经典使用场景主要集中在影响者营销研究领域。该数据集通过提供33,935位Instagram影响者的详细信息及其发布的10,180,500条帖子,为研究者提供了丰富的数据资源。研究者可以利用这些数据进行影响者分类、内容分析以及用户行为预测等多方面的研究。特别是,通过分析帖子的元数据(如标题、标签、时间戳、赞助信息等)和图像内容,研究者能够深入探讨影响者的营销策略及其对受众的影响。
解决学术问题
Instagram Influencer Dataset解决了影响者营销研究中的多个关键学术问题。首先,它为影响者的分类提供了标准化的数据支持,使得研究者能够基于九大类别(如美容、时尚、旅行等)进行深入分析。其次,该数据集通过包含丰富的帖子元数据和图像内容,帮助研究者理解影响者的内容创作策略及其对用户互动的影响。此外,该数据集还为研究者提供了评估影响者营销效果的量化依据,从而推动了影响者营销领域的理论和实证研究。
实际应用
在实际应用中,Instagram Influencer Dataset为品牌和营销机构提供了宝贵的数据支持。品牌可以通过分析影响者的帖子内容和用户互动数据,精准选择与其产品或服务相匹配的影响者,从而提高营销活动的转化率。此外,营销机构可以利用该数据集进行市场趋势分析,预测用户偏好,并制定更为有效的营销策略。通过这些应用,该数据集不仅提升了影响者营销的效率,还为品牌和营销机构带来了显著的商业价值。
数据集最近研究
最新研究方向
在社交媒体影响力分析领域,Instagram Influencer Dataset 的最新研究方向主要集中在多模态数据分析与影响力营销策略的优化上。该数据集通过整合33,935位影响者的10,180,500条Instagram帖子,提供了丰富的文本、图像和元数据,为研究者提供了深入探索影响者营销动态的宝贵资源。当前的研究热点包括利用多模态学习技术,结合图像和文本数据进行精准的用户画像和内容分析,以提升营销策略的个性化和效果评估。此外,数据集的分类标签和详细的元数据信息,也为跨领域研究如社交网络分析、消费者行为预测等提供了新的视角和方法。这些研究不仅推动了影响者营销领域的理论发展,也为实际应用中的精准营销和品牌管理提供了科学依据。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录