ZhihuRec|社交媒体分析数据集|推荐系统数据集
收藏数据集概述
数据集名称
- ZhihuRec
数据集位置
- 应放置于根目录下。
数据集处理
-
使用
io.py
脚本将answer_infos.txt
转换为.csv
文件。 -
可通过运行以下命令获取答案的CSV文件: bash python tools/io.py
-
或者从百度网盘下载
answer_csv
文件夹,解压后放置于source/
目录下。
数据集文件结构
[model]
: 存储TF-IDF模型。[source]
: 处理后的文件。[answer_csv]
: 答案的CSV文件,所有文件已排序。[xxxx.csv]
: xxxx表示该文件中起始(最小)答案的索引。
[tools]
: 用于分析数据集的工具。[io.py]
: 用于读取、写入和转换数据集。[tfidf.py]
: 实现TF-IDF算法,主要功能包括:train()
load_tfidf()
save_tfidf()
compare_similarity()
[zhihuRec]
: 数据集,应放置txt文件。
数据集使用
- 通过运行
app.py
启动Flask应用,应用将在"127.0.0.1:5000"运行。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
DroneVehicle 大规模无人机航拍车辆检测数据集
这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。
超神经 收录
China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录
FMA (Free Music Archive)
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
OpenDataLab 收录