MovieLens100k|电影推荐系统数据集|用户行为分析数据集
收藏数据集概述
数据集名称
- MovieLens100k
数据集内容
- 电影数据:包含24个初始列,包括电影ID、标题、IMDb链接、发行日期和19个代表不同类型的二进制列。
- 用户数据:包含4个字段,包括用户ID、年龄、性别、职业和邮政编码。
- 评分数据:记录用户对电影的评分情况。
数据集特点
- 电影数据:
- 电影标题可能存在误导性,需要更多上下文信息如描述或简短摘要。
- IMDb链接有助于数据挖掘,但因反爬措施难以大规模提取信息。
- 发行日期简化为年份,大多数电影在1990至2000年间发布。
- 类型列显示不平衡和稀疏性,仅5%的电影有超过4个类型标签。
- 用户数据:
- 年龄分布接近高斯分布,有利于统计分析。
- 邮政编码信息因独特值过多且与电影口味关联不大而被丢弃。
- 职业信息通过特征工程处理,用于提升用户表示。
- 评分数据:
- 评分分布高度偏斜,多数电影被评分次数较少,少数电影被频繁评分。
数据集应用
- 用于构建基于内容的推荐系统,但由于电影特征表达不足,最终采用协同过滤方法。
- 模型包括用户和电影的嵌入层、线性块、连接层和最终的分类与回归头,用于预测用户是否观看电影及评分。
模型评估
- 使用均方误差(MSE)、召回率@k(R@k)、精确率@k(P@k)和平均精度均值(MAP)作为评估指标。
- 模型在测试集上的表现不佳,主要受限于数据质量,包括评分的偏斜性和特征的稀疏性。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
UAVDT
UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
arXiv 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录