Datasets for Information Diffusion Tasks|信息扩散数据集|社交网络分析数据集
收藏信息扩散任务数据集概述
数据集分类与属性
-
任务分类
- 信息扩散预测
- 社交机器人检测
- 虚假信息检测
-
六大属性
- 用户属性
- 用户信息
- 机器人标签
- 社交网络
- 内容属性
- 传播内容
- 真实性标签
- 传播网络
- 用户属性
数据集详情
信息扩散预测
宏观扩散预测
-
Cascade Size Prediction
- Twitter-casflow
- 来源:Twitter
- 下载链接:https://github.com/Xovee/casflow
- 论文:https://doi.org/10.1109/TKDE.2021.3126475
- 时间范围:2012.3 ~ 2012.4
- APS
- 来源:American Physical Society
- 下载链接:https://github.com/Xovee/casflow
- 论文:https://doi.org/10.1109/TKDE.2021.3126475
- 时间范围:1893 ~ 2009
- Twitter-casflow
-
Popularity Prediction
- SMPD
- 来源:Flickr
- 下载链接:https://smp-challenge.com/download.html
- 论文:https://doi.org/10.1145/3343031.3356084
- 时间范围:2015.3 ~ 2016.7
- SMPD
-
User Attitudes Prediction
- COVID-19-rumor
- 来源:Twitter, news websites
- 下载链接:https://github.com/MickeysClubhouse/COVID-19-rumor-dataset
- 论文:https://doi.org/10.3389/fpsyg.2021.644801
- 时间范围:2018 ~ 2020
- COVID-19-rumor
微观扩散预测
-
Next User Prediction
- Twitter-FOREST
- 来源:Twitter
- 下载链接:https://github.com/albertyang33/FOREST/tree/master/data
- 论文:https://doi.org/10.24963/ijcai.2019/560
- 时间范围:2010.10
- Twitter-FOREST
-
Social Influence Prediction
- OAG-DeepInf
- 来源:Microsoft Academic Graph, AMiner
- 下载链接:https://github.com/xptree/DeepInf
- 论文:https://doi.org/10.1145/3219819.3220077
- 时间范围:2018.11 ~ 2019.1
- OAG-DeepInf
社交机器人检测
- User-based Bot Detection
- cresci-2017
- 来源:Twitter
- 下载链接:https://botometer.osome.iu.edu/bot-repository/datasets.html
- 论文:https://doi.org/10.1145/3041021.3055135
- 时间范围:2015 ~ 2017
- cresci-2017

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录