Austin Crime Reports Dataset|犯罪监测数据集|公共安全数据集
收藏数据完整性与优化:奥斯汀犯罪报告
概述
本项目专注于调查和增强应用于奥斯汀犯罪报告数据集的数据完整性和优化技术。该数据集由奥斯汀市提供,包含城市内报告的犯罪事件的详细记录。
目标
- 评估数据质量:检查数据集是否存在缺失值、重复项和不一致性等常见数据质量问题。
- 数据清洗:应用适当的数据清洗技术,纠正已识别的问题,确保数据集准确完整。
- 数据优化:实施策略以优化数据集,以便在数据分析和机器学习任务中获得更好的性能。
- 可视化和报告:创建可视化图表和报告,展示项目中的发现和改进。
数据来源
- 奥斯汀犯罪报告数据集:通过API端点访问,包含犯罪类型、地点、发生日期和时间等多种属性。
数据描述
字段描述
- 事件编号:事件报告编号
- 最高犯罪描述:最高级别犯罪的描述
- 最高犯罪代码:最高级别犯罪的代码
- 家庭暴力:指示事件是否涉及家庭暴力(Y = 是,N = 否)
- 发生日期时间:事件发生的日期和时间
- 发生日期:事件发生的日期
- 发生时间:事件发生的时间
- 报告日期时间:事件报告的日期和时间
- 报告日期:事件报告的日期
- 报告时间:事件报告的时间
- 地点类型:事件发生地点的一般描述
- 地址:事件地点
- 邮政编码:事件发生的邮政编码
- 议会区:事件发生的奥斯汀市议会区
- APD部门:事件发生的APD部门
- APD区:事件发生的APD区
- PRA:事件发生的APD警察报告区
- 人口普查区:事件发生的人口普查区
- 清除状态:犯罪是否/如何解决(逮捕清除、例外清除、未清除)
- 清除日期:犯罪解决的日期
- UCR类别:FBI统一犯罪报告计划中识别的最严重犯罪的代码
- 类别描述:FBI统一犯罪报告计划中识别的最严重犯罪的描述
- X坐标:事件发生的X坐标
- Y坐标:事件发生的Y坐标
- 纬度:事件发生的纬度
- 经度:事件发生的经度
- 位置:第三方生成的空间列
方法论
- 数据收集:通过提供的API端点获取数据集。
- 探索性数据分析(EDA):进行EDA以了解数据集的结构、内容和质量。
- 数据清洗步骤:
- 处理缺失值:识别并使用插补或删除等技术适当处理缺失值。
- 去除重复项:检测并删除重复记录,确保数据唯一性。
- 数据类型校正:验证并校正每个属性的数据类型,确保一致性和准确性。
- 数据优化技术:
- 索引:在关键属性上创建索引,加快数据检索速度。
- 规范化:规范化数据以消除冗余并提高数据完整性。
- 分区:对数据集进行分区,以增强查询性能和管理性。
- 可视化:开发可视化图表,展示数据质量和性能的改进。
重要性
确保数据完整性和优化不仅提高了数据集的质量,还增强了基于该数据集构建的任何分析或机器学习模型的可靠性。本项目展示了可应用于各种数据集的实用技术和最佳实践,以实现类似的数据质量和性能改进。
预期成果
- 一个干净、可靠和优化的奥斯汀犯罪报告数据集版本。
- 数据检索和分析任务性能的提升。
- 展示数据完整性和优化过程的综合可视化图表和报告。
- 可重复使用的脚本和方法论,用于未来的数据完整性和优化项目。
项目结构
- data_integrity_optimization.py:数据清洗和优化的脚本。
- SQL脚本:数据清洗和优化的SQL查询。
- 可视化:优化前后的数据集图形表示。
- 报告:数据完整性和优化过程的详细文档。
通过遵循本项目中概述的步骤和方法论,我们旨在实现高级别的数据完整性和优化,从而提高奥斯汀犯罪报告数据集的整体价值和可用性。

MECCANO
MECCANO数据集是首个专注于工业类似环境中第一人称视角下人类-物体交互的研究数据集。该数据集由20名参与者在模拟工业场景中构建摩托车玩具模型的视频组成,包含299,376帧视频数据。数据集不仅标注了时间上的动作片段,还标注了空间上的活跃物体边界框,涵盖了12种动词、20种名词和61种独特动作的分类。MECCANO数据集旨在推动工业环境中第一人称视角下人类动作识别、活跃物体检测、活跃物体识别及第一人称视角下人类-物体交互检测等任务的研究。
arXiv 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
UCI Wine
UCI Wine数据集包含了178个样本,每个样本有13个特征,用于分类任务。这些特征包括葡萄酒的化学成分,如酒精含量、苹果酸、灰分等。数据集的目标是将葡萄酒分类为三个不同的品种。
archive.ics.uci.edu 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
HIT-UAV
HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
github 收录