Movielens-Dataset|电影评分数据集|用户行为分析数据集
收藏数据集概述
数据集名称
- Movielens-Dataset
数据集目的
- 用于执行探索性数据分析,找出影响电影评分的特征,并构建模型预测电影评分。
数据集内容
- 包含约3,900部电影的1,000,209条匿名评分,由2000年加入的6,040名MovieLens用户提供。
数据集文件
-
Ratings.dat
- 格式:UserID::MovieID::Rating::Timestamp
- 字段:
- UserID: 用户唯一标识
- MovieID: 电影唯一标识
- Rating: 用户对电影的评分
- Timestamp: 评分添加时的时间戳
- 特点:
- UserID范围:1至6040
- MovieID范围:1至3952
- 评分采用5星制(整星评分)
- 时间戳表示自纪元以来的秒数
- 每个用户至少有20条评分
-
Users.dat
- 格式:UserID::Gender::Age::Occupation::Zip-code
- 字段:
- UserID: 用户唯一标识
- Gender: 性别(M表示男性,F表示女性)
- Age: 用户年龄
- Occupation: 用户职业
- Zip-code: 用户位置的邮政编码
- 特点:
- 年龄范围:
- 1: "Under 18"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
- 职业选项:
- 0: "other" or not specified
- 1: "academic/educator"
- 2: "artist”
- 3: "clerical/admin"
- 4: "college/grad student"
- 5: "customer service"
- 6: "doctor/health care"
- 7: "executive/managerial"
- 8: "farmer"
- 9: "homemaker"
- 10: "K-12 student"
- 11: "lawyer"
- 12: "programmer"
- 13: "retired"
- 14: "sales/marketing"
- 15: "scientist"
- 16: "self-employed"
- 17: "technician/engineer"
- 18: "tradesman/craftsman"
- 19: "unemployed"
- 20: "writer”
- 年龄范围:
-
Movies.dat
- 格式:MovieID::Title::Genres
- 字段:
- MovieID: 电影唯一标识
- Title: 电影标题
- Genres: 电影类别
- 特点:
- 标题与IMDB提供的标题相同(包括发行年份)
- 类别由管道分隔,可选自以下类别:
- Action
- Adventure
- Animation
- Childrens
- Comedy
- Crime
- Documentary
- Drama
- Fantasy
- Film-Noir
- Horror
- Musical
- Mystery
- Romance
- Sci-Fi
- Thriller
- War
- Western
- 部分MovieID可能不对应实际电影,因存在重复或测试条目
- 电影信息多为手动输入,可能存在错误和 inconsistency
分析任务
- 导入三个数据集
- 创建新数据集[Master_Data],包含MovieID, Title, UserID, Age, Gender, Occupation, Rating字段
- 通过可视化探索数据集,包括用户年龄分布、特定电影评分分析等
- 进行特征工程,包括处理电影类别字段,创建新的类别特征,分析影响评分的特征,并开发预测模型
数据集特点
- 数据集包含用户评分、用户信息和电影信息,适合进行电影评分预测和用户行为分析。

UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
中国知识产权局专利数据库
该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。
www.cnipa.gov.cn 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录