Instagram Influencer Dataset|社交媒体分析数据集|影响者营销数据集
收藏Instagram Influencer Dataset 概述
数据集基本信息
- 数据集名称:Instagram Influencer Dataset
- 数据集下载链接:Instagram Influencer Dataset
- 数据集大小:
- 元数据:约37 GB(JSON格式)
- 图像文件:约189 GB(JPEG格式)
数据集内容
- 影响者数量:33,935
- 帖子数量:10,180,500(平均每个影响者300个帖子)
- 图像文件数量:12,933,406(单个帖子可能包含多个图像文件)
数据集文件类型
- 元数据文件:JSON格式,包含信息如标题、用户标签、话题标签、时间戳、赞助信息、点赞数、评论数等。
- 图像文件:JPEG格式
- 映射文件:JSON-Image_mapping,用于展示与元数据对应的图像文件列表
影响者分类
影响者被分为以下九个类别:
- 美容
- 家庭
- 时尚
- 健身
- 食品
- 室内
- 宠物
- 旅行
- 其他
引用信息
@inproceedings{kim2020multimodal, title={Multimodal Post Attentive Profiling for Influencer Marketing}, author={Kim, Seungbae and Jiang, Jyun-Yu and Nakada, Masaki and Han, Jinyoung and Wang, Wei}, booktitle={Proceedings of The Web Conference 2020}, pages={2878--2884}, year={2020} }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录