HIN-Datasets-for-Recommendation-and-Network-Embedding|推荐系统数据集|网络嵌入数据集
收藏MovieLens 数据集
- 实体统计:
- 用户数:943
- 年龄类别数:8
- 职业类别数:21
- 电影数:1,682
- 电影类别数:18
- 关系统计:
- 用户-电影关系数:100,000
- 用户-用户(KNN)关系数:47,150
- 用户-年龄关系数:943
- 用户-职业关系数:943
- 电影-电影(KNN)关系数:82,798
- 电影-电影类别关系数:2,861
Douban Movie 数据集
- 实体统计:
- 用户数:13,367
- 电影数:12,677
- 小组数:2,753
- 演员数:6,311
- 导演数:2,449
- 类型数:38
- 关系统计:
- 用户-电影关系数:1,068,278
- 用户-小组关系数:570,047
- 用户-用户关系数:4,085
- 电影-演员关系数:33,587
- 电影-导演关系数:11,276
- 电影-类型关系数:27,668
Douban Book 数据集
- 实体统计:
- 用户数:13,024
- 书籍数:22,347
- 小组数:2,936
- 地点数:38
- 作者数:10,805
- 出版社数:1,815
- 年份数:64
- 关系统计:
- 用户-书籍关系数:792,062
- 用户-小组关系数:1,189,271
- 用户-用户关系数:169,150
- 用户-地点关系数:10,592
- 书籍-作者关系数:21,907
- 书籍-出版社关系数:21,773
- 书籍-年份关系数:21,192
Amazon 数据集
- 实体统计:
- 用户数:6,170
- 商品数:2,753
- 浏览数:3,857
- 类别数:22
- 品牌数:334
- 关系统计:
- 用户-商品关系数:195,791
- 商品-浏览关系数:5,694
- 商品-类别关系数:5,508
- 商品-品牌关系数:2,753
LastFM 数据集
- 实体统计:
- 用户数:1,892
- 艺术家数:17,632
- 标签数:11,945
- 关系统计:
- 用户-艺术家关系数:92,834
- 用户-用户(原始)关系数:25,434
- 用户-用户(KNN)关系数:18,802
- 艺术家-艺术家(KNN)关系数:153,399
- 艺术家-标签关系数:184,941
Yelp 数据集
- 实体统计:
- 用户数:16,239
- 商家数:14,284
- 赞关系数:11
- 类别数:511
- 城市数:47
- 关系统计:
- 用户-商家关系数:198,397
- 用户-用户关系数:158,590
- 用户-赞关系数:76,875
- 商家-城市关系数:14,267
- 商家-类别关系数:40,009
Yelp-2 数据集
- 实体统计:
- 用户数:1,286
- 商家数:2,614
- 服务数:2
- 星级数:9
- 预订数:2
- 类别数:3
- 关系统计:
- 用户-商家关系数:30,838
- 商家-服务关系数:2,614
- 商家-星级关系数:2,614
- 商家-预订关系数:2,614
- 商家-类别关系数:2,614
DBLP 数据集
- 实体统计:
- 作者数:14,475
- 论文数:14,376
- 作者标签数:4
- 会议数:20
- 类型数:8,920
- 关系统计:
- 作者-标签关系数:4,057
- 论文-作者关系数:41,794
- 论文-会议关系数:14,376
- 论文-类型关系数:114,624
Aminer 数据集
- 实体统计:
- 作者数:164,472
- 论文数:127,623
- 论文标签数:10
- 会议数:101
- 引用数:147,251
- 关系统计:
- 论文-标签关系数:127,623
- 论文-作者关系数:355,072
- 论文-会议关系数:127,632
- 论文-引用关系数:392,519

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
CHFS中国家庭金融调查数据
中国家庭金融调查(China Household Finance Survey, CHFS)是中国家庭金融调查与研究中心(以下简称“中心”)在全国范围内开展的抽样调查项目,旨在收集有关家庭金融微观层次的相关信息,主要内容包括:人口特征与就业、资产与负债、收入与消费、社会保障与保险以及主观态度等相关信息,对家庭经济、金融行为进行了全面细致刻画。 CHFS基线调查始于2011年,目前已分别在2011、2013、2015、2017和2019年成功实施五轮全国范围内的抽样调查项目,2021年第六轮调查还在进行中。CHFS最新公开的2019年第五轮调查数据,样本覆盖全国29个省(自治区、直辖市),343个区县,1360个村(居)委会,样本规模达34643户,数据具有全国及省级代表性。
CnOpenData 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录