有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
数据集 | 用户数 | 物品数 | 评分数量 | 评分范围 | 密度 | 用户上下文 | 链接数量 | 链接类型 |
---|---|---|---|---|---|---|---|---|
Ciao | 7,375 | 105,114 | 284,086 | [1, 5] | 0.0365% | 7,375 | 111,781 | Trust |
Epinions | 40,163 | 139,738 | 664,824 | [1, 5] | 0.0118% | 49,289 | 487,183 | Trust |
Douban | 2,848 | 39,586 | 894,887 | [1, 5] | 0.794% | 2,848 | 35,770 | Trust |
LastFM | 1,892 | 17,632 | 92,834 | implicit | 0.27% | 1,892 | 25,434 | Trust |
数据集 | 用户数 | 曲目数 | 艺术家数 | 专辑数 | 记录数 | 标签 | 用户档案 | 艺术家档案 |
---|---|---|---|---|---|---|---|---|
NowPlaying | 1,744 | 16,864 | 2,108 | N/A | 1,117,335 | N/A | N/A | N/A |
Xiami | 4,271 | 290,312 | 33,316 | 95,003 | 1,301,486 | Yes | N/A | N/A |
Yahoo Music | 1,800,000 | 136,000 | many | many | 717,000,000 | Yes | N/A | N/A |
30 Music | 45167 | 5023108 | 595049 | 217337 | many | Yes | Yes | N/A |
数据集 | 用户数 | 论文数 | 反馈数 | 标签数 | 内容 |
---|---|---|---|---|---|
CiteULike | 7,947 | 25,975 | 134,860 | 52,946 | full abstract |
数据集 | 用户数 | 位置数 | 反馈数 | 关系 | 时间 |
---|---|---|---|---|---|
Gowalla | 18,737 | 32,510 | 1,278,274 | Yes | Yes |
数据集 | 用户数 | 物品数 | 类别数 | 行为类型 | 时间 |
---|---|---|---|---|---|
Taobao | 987,994 | 4,162,024 | 9,439 | 5 | Yes |
数据集 | 非垃圾邮件发送者 | 垃圾邮件发送者 | 简介 |
---|---|---|---|
1,295 | 355 | 第一列是用户类别(即,1表示非垃圾邮件发送者,2表示垃圾邮件发送者),后续列号从1到62表示用户特征。 | |
YouTube | 641 | 31 (推广者) 157(垃圾邮件发送者) | 第一列是用户类别(即,1表示推广者,2表示垃圾邮件发送者,3表示合法用户),后续列号从1到60表示用户特征。 |
数据集 | 非垃圾邮件发送者 | 垃圾邮件发送者 | 简介 |
---|---|---|---|
Amazon | 3,118 | 1,937 | 列按此顺序:用户ID 物品ID 评分。在标签文件中:1: 垃圾邮件发送者 0: 非垃圾邮件发送者 |
Yelp | 52,815 | 80,466 | 列按此顺序:用户_id 产品_id 评分 标签 日期。标签 -1: 垃圾邮件发送者 1: 非垃圾邮件发送者 |
数据集 | 年份 | 标注方法 | 数据量 | 网络欺凌数量 | 网络欺凌比例 |
---|---|---|---|---|---|
Formspring | 2010 | 众包 | 3,915 | 369 | 9.43% |
MySpace | 2011 | 专家标注 | 2,088 | 434 | 20.79% |
Ask.fm | 2014 | ||||
2014 | 众包 | 1,954 | 567 | 29% | |
Vine | 2015 | 众包 | 971 | 304 | 31.34% |
BullyingV3.0 | 2015 | 标签算法 | 7,321 | 2,102 | 28.71% |
WOW | 2016 | 专家标注 | 16,975 | 137 | 0.81% |
LOL | 2016 | 专家标注 | 17,354 | 207 | 1.19% |
2017 | 众包 | 1,303 | 58 | 4.45% | |
Wikipedia | 2017 | 众包 | 37,611 | 338 | 0.9% |
Harassment-Corpus | 2018 | 专家标注 | 24,189 | 3,119 | 12.89% |
Hate and Abusive Speech | 2018 | 众包 | 99,799 | 46,009 | 46.1% |
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
ImageNet-1K(ILSVRC2012)
ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。
github 收录