Flight Dataset|航班数据数据集|数据分析数据集
收藏航班数据集分析
数据集描述
- 数据来源: 1987年至2000年的航班数据集,来源为 http://stat-computing.org/dataexpo/2009/the-data.html
- 数据格式: 每个数据文件为逗号分隔的CSV文件,包含某一年的航班信息。
分析任务
-
使用SCALA计算平均延误:
-
任务描述: 使用2001年的航班数据集,编写Spark程序,返回2001年出发延误最高的10个航班。
-
输出格式:
Unique_Carrier Source Dest year/month/day depDelay
-
-
使用Combiners计算平均延误:
- 任务描述: 编写自定义Combiner的MapReduce程序,计算每个唯一运营商的平均出发延误。将航班数据复制到HDFS,创建JAR文件并在三节点集群上运行程序。记录作业的耗时和reduce shuffle大小,然后在不使用combiner的情况下再次运行程序,并记录相关数据。
- 结论: 使用combiner后,通过分析reduce shuffle大小和作业耗时,程序运行更快。
-
最高取消率的航班城市对:
- 任务描述: 编写MapReduce程序,找出每个唯一运营商中取消率最高的城市对(机场)。
-
最频繁目的地:
- 任务描述: 编写MapReduce程序,计算航班数据集中最频繁的目的地。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录