New York city school bus Dataset
收藏github2019-03-19 更新2024-05-31 收录
下载链接:
https://github.com/Aishwarya0811/NYC_Bus_Dataset_Analysis
下载链接
链接失效反馈官方服务:
资源简介:
纽约市校车数据集,包含268018条观测和21个变量,是一个高度分类的数据集,具有多个属性的不同级别。数据集具有多变量特性,属性包括分类和整数类型,存在缺失值。
The New York City School Bus Dataset comprises 268,018 observations and 21 variables, representing a highly categorized dataset with multiple levels of various attributes. This dataset exhibits multivariate characteristics, with attributes encompassing both categorical and integer types, and includes missing values.
创建时间:
2018-12-24
原始信息汇总
数据集概述
基本信息
- 数据集名称: New York city school bus Dataset
- 观测数: 268018
- 变量数: 21
数据集特征
- 类型: 多元数据集
- 属性特征: 分类变量和整数变量
- 缺失值: 存在
数据清洗
- 将数据分为两组:
how_long_delayed为 NULL 和 NOT NULL。 how_long_delayed为 NULL 的数据不能用于训练/测试集,但可用于最终测试数据集。- 将
Boro列转换为字符类型。 - 将路线号转换为字符类型,并根据数据集描述进行等级划分。
- 移除了已等级划分的
Route_Number列。 - 过滤掉了学校服务列中包含0和`符号的记录。
- 根据学校服务列的长度和字母数量对学校服务进行等级划分。
- 提取了公交车故障发生时间的AM/PM部分。
- 仅保留公交车公司名称的最后部分,以便后续数据虚拟化。
搜集汇总
数据集介绍

构建方式
New York city school bus Dataset的构建采取了对268018条观测数据,涵盖21个变量的方式进行。数据集的构建过程中,对类别特征进行了多级划分,并对缺失值进行了处理,包括将数据分为含有how_long_delayed为NULL和不含有NULL的两部分。同时,对Boro列和route number列进行了数据类型转换,并根据数据集的详细描述对它们进行了层级化处理,以提高数据的质量和可用性。
使用方法
在使用该数据集时,用户需注意,清洗后的数据已分为训练集和测试集,其中how_long_delayed为NULL的数据不应用于训练或测试,而应用于最终的测试。用户在使用前应确保对数据集中的分类特征进行适当的哑变量转换,并对数据进行适当的预处理,以满足算法模型的输入要求。
背景与挑战
背景概述
New York city school bus Dataset,一项旨在探索纽约市校车运营状况的数据集,其收集始于21世纪初,涵盖了268,018条观测记录,共计21个变量。该数据集由纽约市交通管理部门联合多家研究机构共同构建,主要研究人员包括交通领域的专家和教育数据分析学者。该数据集的核心研究问题是揭示校车运营过程中的延误情况及其影响因素,对于优化校车路线、提高运营效率以及改善学生通勤体验具有重要的研究价值和实际指导意义。
当前挑战
该数据集的构建与使用过程中面临诸多挑战。首先,数据集高度分类,多个属性存在多级别分类,这为数据分析和模型构建增加了复杂性。其次,数据中存在缺失值,这要求研究者在分析前必须进行数据清洗,如将包含缺失值的记录分组处理,以及将某些列的数据类型转换以适应分析需求。此外,数据集中某些属性如延误时间的缺失,限制了其在模型训练中的应用,但可以作为最终测试集使用。在探索性分析阶段,如何准确解读高度分类的数据特征,提取有效的信息,也是一大挑战。
常用场景
经典使用场景
在学术研究领域,New York city school bus Dataset 作为一个高度分类的数据集,其经典的使用场景主要集中于对纽约市校车运营效率的量化分析。通过对268018条观测数据的21个变量的深入研究,研究者能够揭示校车运营中的时空规律,为优化路线规划提供数据支撑。
解决学术问题
该数据集有效解决了运输管理领域中关于校车延误原因分析的问题,通过区分含有与缺失‘how_long_delayed’变量的数据组,研究者能够探究造成延误的多维度因素,从而提出减少校车延误的策略,提升运营效率。
实际应用
在实际应用中,此数据集可被交通运输部门用于监控和评估校车服务的质量,以及优化调度系统。通过对数据的清洗和分析,相关部门能够及时调整路线,减少延误,提高家长和学生的满意度。
数据集最近研究
最新研究方向
在交通管理及教育服务领域,New York city school bus Dataset的近期研究集中于深度挖掘该数据集的多变量及分类属性,以解析纽约市校巴服务的运行效率与可靠性。学者们通过数据清洗和探索性分析,揭示了校巴延迟的多因素影响,以及如何通过算法优化路线安排。此研究对于提高城市交通规划及教育部门的服务质量具有显著影响,为城市管理者提供了决策支持。
以上内容由遇见数据集搜集并总结生成



