five

TSA Complaint Counts

收藏
github2024-04-26 更新2024-05-31 收录
下载链接:
https://github.com/data-liberation-project/tsa-complaint-counts
下载链接
链接失效反馈
官方服务:
资源简介:
每月TSA旅客投诉计数,按机场、类别和子类别划分。数据集包括从2015年1月至2024年3月的投诉数据,分为机场、类别和子类别三个级别的详细信息。

Monthly TSA passenger complaint counts, categorized by airport, category, and subcategory. The dataset encompasses complaint data from January 2015 to March 2024, providing detailed information at three levels: airport, category, and subcategory.
创建时间:
2024-02-22
原始信息汇总

数据集概述

数据集名称

  • TSA Complaint Counts

数据来源

数据内容

  • 包含2015年1月至2024年3月的旅客投诉数据,按机场、类别和子类别统计。

数据格式

  • 原始数据以PDF格式发布,本项目将其转换为CSV格式。

数据处理

  • 本项目通过自动化脚本定期获取新发布的PDF文件,解析数据,转换为CSV格式,并进行标准化处理。

数据文件

  • output/03-standardized/complaints-by-airport.csv:按机场和月份统计的投诉总数。
  • output/03-standardized/complaints-by-category.csv:按机场、月份和投诉类别统计的投诉数。
  • output/03-standardized/complaints-by-subcategory.csv:按机场、月份、投诉类别和投诉子类别统计的投诉数。

数据字段

  • pdf_report_date:PDF报告的月份(YYYY-MM)。
  • airport:机场的三字母代码。
  • category:投诉类别。
  • subcategory:投诉子类别。
  • year_month:投诉月份。
  • count:该月份该机场、类别和子类别的投诉数。
  • clean_cat:标准化后的类别标签。
  • clean_subcat:标准化后的子类别标签。
  • clean_cat_status:类别标准化状态。
  • clean_subcat_status:子类别标准化状态。
  • is_category_prefix_removed:是否移除了子类别中的重复类别前缀。

注意事项

  • 由于TSA报告格式的特殊性,某些子类别可能存在歧义,导致统计数据不准确。
  • 部分投诉可能未关联特定机场,导致机场字段为空。
  • 2024年3月起,TSA简化了投诉提交流程,可能导致投诉数量增加。

数据清洗

  • 使用查找表对类别和子类别进行标准化处理,处理包括截断、填充和去除重复前缀等。

数据使用建议

  • 建议使用标准化后的CSV文件进行数据分析。
搜集汇总
数据集介绍
main_image_url
构建方式
TSA Complaint Counts数据集的构建基于美国运输安全管理局(TSA)通过《信息自由法》电子阅览室发布的旅客投诉报告。这些报告最初以PDF格式提供,涵盖了各机场、类别和子类别的月度投诉数量。数据集的构建过程包括自动抓取新发布的PDF文件、解析其中的原始数据、将其转换为CSV格式,并进行标准化处理。通过这一系列自动化脚本,数据集得以定期更新,确保数据的时效性和可分析性。
使用方法
用户可以通过访问output/03-standardized目录下的CSV文件来使用该数据集,这些文件分别按机场、类别和子类别提供了详细的投诉统计。每个CSV文件包含多个字段,如报告日期、机场代码、投诉类别和子类别、投诉数量等。用户可以根据需要选择不同粒度的数据进行分析,并结合数据清理状态字段来理解数据的准确性和完整性。
背景与挑战
背景概述
TSA Complaint Counts数据集由美国运输安全管理局(TSA)发布,旨在提供旅客投诉的月度统计数据。该数据集涵盖了2015年1月至2024年3月的旅客投诉数量,按机场、类别和子类别进行分类。数据集的核心研究问题在于分析旅客投诉的趋势及其背后的原因,尤其是随着时间推移,投诉数量变化的模式。该数据集由Data Liberation Project及其志愿者团队创建,通过自动化脚本从TSA的FOIA电子阅读室获取PDF格式的原始数据,并将其转换为可机读的CSV文件。这一数据集的发布对航空运输领域的研究具有重要意义,尤其是对旅客服务质量的评估和改进提供了宝贵的数据支持。
当前挑战
TSA Complaint Counts数据集在构建和使用过程中面临多项挑战。首先,TSA仅以PDF格式发布数据,而非机器可读的格式,这增加了数据提取和处理的复杂性。其次,PDF中的数据格式不一致,导致子类别名称经常被截断,产生歧义,影响了数据的准确性。此外,部分投诉记录的机场字段为空值,这可能意味着这些投诉与特定机场无关,但也增加了数据分析的难度。最后,随着时间推移,TSA对投诉提交方式的改进(如引入新的在线表单)可能导致投诉数量的增加,这为时间序列分析带来了额外的复杂性。
常用场景
经典使用场景
TSA Complaint Counts数据集的经典使用场景主要集中在航空旅客服务质量的监测与分析。通过该数据集,研究者和分析师可以深入探讨不同机场、不同时间段以及不同投诉类别下的旅客投诉数量变化趋势。例如,研究者可以分析特定机场在高峰期的投诉集中点,或探讨某一类投诉(如行李处理不当)在不同机场的表现差异,从而为提升旅客体验提供数据支持。
解决学术问题
该数据集解决了航空运输领域中旅客投诉数据的系统化收集与分析问题。通过提供标准化和结构化的投诉数据,研究者能够更精确地识别投诉模式、趋势及其背后的原因,从而推动航空服务质量的改进研究。此外,该数据集还为跨时间、跨机场的投诉比较研究提供了基础,有助于揭示服务质量的长期变化趋势及其影响因素。
实际应用
TSA Complaint Counts数据集在实际应用中广泛用于航空公司的服务质量监控与改进。例如,航空公司可以利用该数据集识别其运营中的薄弱环节,并针对性地优化服务流程。此外,机场管理部门也可通过分析投诉数据,制定更有效的旅客服务策略,提升旅客满意度。该数据集还为政府监管机构提供了评估航空服务质量的量化依据,支持政策制定与调整。
数据集最近研究
最新研究方向
近年来,TSA Complaint Counts数据集在航空安全与旅客体验优化领域引起了广泛关注。该数据集通过详细记录美国各机场的旅客投诉数量及其分类,为研究旅客行为模式、机场服务质量以及安全检查流程的改进提供了宝贵数据。特别是在疫情后航空业复苏的背景下,如何通过数据分析提升旅客满意度成为研究热点。此外,数据集中关于投诉类别和子类别的标准化处理,为跨时间、跨机场的比较研究提供了可能,进一步推动了航空服务质量评估体系的完善。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作