five

CrimeDataBD

收藏
arXiv2022-11-03 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2211.01551v1
下载链接
链接失效反馈
官方服务:
资源简介:
CrimeDataBD是孟加拉国首个标准犯罪数据集,由阿赫桑科学与技术大学和达卡大学合作创建。该数据集包含2013至2019年间6574起犯罪事件的详细信息,包括时间、地点、天气和人口统计数据。数据收集自孟加拉国最广泛阅读的英文日报《The Daily Star》,并通过手动和自动方式从新闻文章中提取基本特征。此外,还从标准服务提供商获取地理位置和天气数据,以及从孟加拉国国家人口普查报告中收集人口统计信息。数据集通过多种特征工程方法进一步改进,以适应机器学习任务,特别是犯罪预测。该数据集旨在为孟加拉国及其他国家的犯罪预测系统提供基础,帮助执法机构预测和遏制犯罪,优化资源分配。

CrimeDataBD is the first standardized crime dataset in Bangladesh, co-created by Ahsanullah University of Science and Technology and the University of Dhaka. This dataset contains detailed information on 6,574 criminal incidents spanning 2013 to 2019, including temporal, spatial, meteorological and demographic data. The data was collected from The Daily Star, the most widely circulated English-language daily newspaper in Bangladesh, with basic features extracted from news articles via both manual and automated methods. Additionally, geolocation and weather data were obtained from standard service providers, while demographic information was gathered from Bangladesh's national census reports. The dataset has been further refined through multiple feature engineering methods to suit machine learning tasks, particularly crime prediction. This dataset aims to serve as a foundational resource for crime prediction systems in Bangladesh and other countries, assisting law enforcement agencies in predicting and curbing criminal activities and optimizing resource allocation.
提供机构:
计算机科学与工程系,阿赫桑科学与技术大学,达卡,孟加拉国
创建时间:
2022-11-03
搜集汇总
数据集介绍
main_image_url
构建方式
在犯罪预测研究领域,高质量数据集的构建是模型有效性的基石。CrimeDataBD的构建过程体现了多源异构数据的系统整合策略。研究团队以孟加拉国主流英文日报《每日星报》2013至2019年的犯罪新闻报道为原始数据源,通过人工筛选与网络爬虫相结合的方式,从约八万篇新闻报道中提取出6574起犯罪事件。随后,采用人工标注与自动化工具相结合的方法,从新闻报道中提取犯罪时间、地点、受害者与施害者信息等基础特征。为进一步丰富数据维度,研究团队利用Mapbox地理编码API获取犯罪地点的经纬度坐标,通过Weatherstack API获取犯罪发生时的精细化天气数据,并整合孟加拉国2011年人口普查报告中的社会经济与人口统计特征。最终,通过特征工程方法衍生出包括时空特征、天气特征与人口统计特征在内的36个结构化特征,构建出首个面向孟加拉国的标准化犯罪预测机器学习数据集。
使用方法
该数据集为犯罪预测与模式分析研究提供了标准化的基准平台。研究者可首先利用其进行探索性数据分析,深入挖掘不同犯罪类型在时空分布、气象条件及社会人口背景下的统计规律与关联模式。在机器学习建模方面,数据集适用于监督学习框架下的多分类任务,目标变量为六类犯罪类型。使用前需进行标准的数据预处理,包括对数值型特征进行最小-最大归一化处理,对类别型特征进行标签编码。针对数据中存在的类别不平衡问题,可采用SMOTE等过采样技术进行数据增强以提升模型对少数类别的识别性能。研究论文中已验证了决策树、随机森林、AdaBoost、XGBoost等经典算法在该数据集上的有效性,后续研究可在此基础上尝试更复杂的集成学习或深度学习模型,亦可利用其丰富的特征集进行特征重要性分析与可解释性研究,以揭示影响犯罪发生的关键因子。
背景与挑战
背景概述
在犯罪预测研究领域,高质量、结构化的数据集是应用机器学习技术的基础。2022年,由孟加拉国阿赫萨努拉科学技术大学和达卡大学的研究人员Faisal Tareque Shohan等人共同创建了CrimeDataBD数据集,旨在填补孟加拉国缺乏标准犯罪数据的空白。该数据集系统性地整合了2013年至2019年七年间6574起犯罪事件的时空信息、天气数据与人口统计特征,共计36个特征维度。其核心研究问题聚焦于如何构建一个适用于监督学习算法的标准数据集,以预测特定时空条件下的犯罪发生概率。作为孟加拉国首个此类综合性犯罪数据集,它为执法机构优化资源配置、实施精准犯罪预防策略提供了重要的数据支撑,并对南亚地区类似社会经济背景下的犯罪学研究产生了示范效应。
当前挑战
CrimeDataBD数据集所针对的犯罪预测领域,其核心挑战在于犯罪事件固有的稀疏性、高度情境依赖性及复杂的多因素耦合关系,这使得从历史数据中提取稳健、可泛化的模式极为困难。具体而言,构建过程面临多重挑战:首要难题是原始数据获取,需从《每日星报》数万篇非结构化新闻报道中手动筛选与标注犯罪新闻,并克服报道中地点拼写不一致、时间描述模糊等数据噪声;其次,特征工程阶段需融合来自地理编码API、天气服务与人口普查报告的多源异构数据,并解决数据缺失与尺度不统一问题;最后,数据集的类别不平衡问题突出,抢劫与绑架等少数类样本不足,直接影响模型预测的公平性与准确性,需借助SMOTE等技术进行数据重平衡以提升模型性能。
常用场景
经典使用场景
在犯罪学与公共安全研究领域,CrimeDataBD数据集为机器学习驱动的犯罪预测提供了关键的数据基础。该数据集整合了孟加拉国七年间的6574起犯罪事件,涵盖时空、天气与人口统计等多维度特征,共计36个工程化属性。其经典应用场景在于构建监督学习分类模型,通过随机森林、XGBoost等算法,对谋杀、强奸、抢劫等六类犯罪进行发生概率预测。研究者在模型训练中常采用SMOTE过采样技术以平衡数据分布,从而提升对少数类别犯罪的识别精度。
解决学术问题
CrimeDataBD有效解决了犯罪预测研究中长期存在的数据稀缺与结构缺失问题。传统犯罪数据往往以聚合形式呈现,缺乏细粒度的时空关联与多源特征融合。该数据集通过系统化采集新闻文本、地理坐标、历史天气及人口普查信息,构建了首个针对孟加拉国的标准化犯罪机器学习数据集。其意义在于为探索犯罪模式与外部因素(如温度、湿度、人口密度)的关联提供了实证基础,推动了数据驱动型公共安全研究在发展中国家的发展,并为跨地域的犯罪预测模型迁移学习提供了可能。
实际应用
在实际应用层面,CrimeDataBD为执法机构的资源优化与犯罪预防策略提供了决策支持。基于该数据集构建的预测系统可协助警方识别犯罪高发时段与区域,例如研究揭示夜间与雨季的犯罪率显著上升,高温高湿天气与暴力犯罪存在正相关。这些洞察有助于动态调整巡逻警力部署,提升警务效率。此外,数据集的结构化设计可启发执法部门完善犯罪记录标准,推动建立全国性的犯罪报告与分析系统,从而实现从经验判断向数据驱动的犯罪防控模式转型。
数据集最近研究
最新研究方向
在犯罪预测领域,CrimeDataBD数据集的引入标志着孟加拉国首次拥有了结构化的时空犯罪数据库,为机器学习在该国公共安全领域的应用奠定了基础。当前研究聚焦于利用该数据集的多维特征——包括地理坐标、天气参数与人口统计信息——构建集成学习模型,以提升犯罪类型分类的准确性。前沿探索涉及不平衡数据处理技术,如SMOTE过采样方法的应用,旨在优化少数类犯罪(如抢劫与绑架)的预测性能。同时,特征重要性分析揭示了时空因素与气象条件对犯罪模式的显著影响,这为执法机构的资源动态调配提供了数据驱动的决策依据。该数据集不仅填补了区域犯罪数据空白,其多源特征融合框架也为跨国家的犯罪预测迁移学习研究提供了重要参考。
相关研究论文
  • 1
    Crime Prediction using Machine Learning with a Novel Crime Dataset计算机科学与工程系,阿赫桑科学与技术大学,达卡,孟加拉国 · 2022年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作