Movies Dataset|电影行业数据集|数据分析数据集
收藏Movies Dataset Project - SQL Queries
数据集概述
- 包含内容: 30个MySQL查询,用于探索和分析电影数据集。
- 数据集信息: 包含电影名称、评分、类型、年份、发行日期、IMDb评分、投票数、导演、编剧、主演、国家、预算、总收入、制作公司和电影时长。
数据集列
name
: 电影名称rating
: 电影评分genre
: 电影类型year
: 发行年份released
: 发行日期score
: IMDb评分votes
: 投票数director
: 导演writer
: 编剧star
: 主演country
: 制作国家budget
: 电影预算gross
: 总收入company
: 制作公司runtime
: 电影时长(分钟)
查询分类
初级问题
- 查询所有列
- 按年份筛选:查找1985年发行的所有电影
- 按类型筛选:查找所有“动作”电影
- 统计电影数量
- 按评分排序:按评分降序排列电影
- 选择特定列:仅检索电影名称和评分
- 按评分筛选:查找评分大于8.0的所有电影
- 查找唯一类型:列出数据集中所有唯一的类型
- 按国家统计电影数量
- 按预算筛选:查找预算低于100万美元的所有电影
中级问题
- 最高收入电影:查找总收入最高的电影
- 按类型计算平均评分
- 发行年份在2000年之后的电影
- 按评分排序:按评分升序排列电影
- 按导演筛选:查找“克里斯托弗·诺兰”导演的所有电影
- 按年份统计电影数量
- 前5部评分最高的电影
- 投票数高于平均值的电影
- 按时长筛选:查找时长在90到120分钟之间的所有电影
- 1月份发行的电影
高级问题
- 每个类型的最高评分
- 按国家计算平均总收入
- 预算大于总收入的电影
- 按导演统计电影数量
- 复杂筛选:查找评分大于8.0且预算低于500万美元的电影
- 拥有最多电影的编剧
- 按年份和类型统计电影数量
- 主演为“莱昂纳多·迪卡普里奥”的电影
- 按总收入排名前三的制作公司
- 评分和投票数高于平均值的电影
使用方法
- 克隆仓库
- 设置MySQL
- 运行查询
学习成果
通过本项目,您将学习如何:
- 使用
SELECT
语句检索数据 - 使用
WHERE
、BETWEEN
和IN
子句筛选数据 - 使用聚合函数如
COUNT()
、SUM()
、AVG()
、MIN()
和MAX()
- 使用
ORDER BY
排序数据 - 使用
GROUP BY
和HAVING
分组和聚合数据 - 编写包含多个条件、连接和嵌套查询的复杂查询
许可证
本项目采用MIT许可证。

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国行政区划shp数据
中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。 中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。
CnOpenData 收录
World Flights
该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。
github 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录