five

ICE detention facilities data sets

收藏
github2025-08-27 更新2025-08-29 收录
下载链接:
https://github.com/Open-Security-Mapping-Project/example-data-sets
下载链接
链接失效反馈
官方服务:
资源简介:
该存储库包含ICE拘留设施数据的示例数据集,展示了从ICE拘留设施数据抓取器和丰富器程序的输入和输出数据。这些数据集包括从ICE.gov抓取并利用Wikipedia、Wikidata和OpenStreetMap信息进行丰富的拘留设施数据,以及由LLM AI从ICE.gov自动提取的源数据。

This repository contains sample datasets for ICE detention facility data, showcasing the input and output data of the ICE detention facility data crawler and enricher programs. These datasets include detention facility data scraped from ICE.gov and enriched with information from Wikipedia, Wikidata, and OpenStreetMap, as well as source data automatically extracted from ICE.gov by LLM AI.
创建时间:
2025-08-27
原始信息汇总

数据集概述

基本信息

  • 数据集名称:Example data sets for ICE detention facilities
  • 描述:该存储库用于展示数据源和我们开发程序的输出示例,包含ICE拘留设施数据的输入和输出数据。

数据来源

  • 数据由ICE拘留设施脚本从ICE.gov抓取,并使用来自Wikipedia、Wikidata和OpenStreetMap的信息进行丰富。

文件内容

  • ice_detention_facilities_enriched-debugmode-aug-25-2025.csv:ICE拘留抓取程序于2025年8月25日的输出,启用了所有调试模式。请注意,例如Wikidata.org中的许多结果不正确。
  • ice-detention-facilities-extracted-aug-23-2025.json:上述处理数据的源。请注意,这是由LLM AI从ICE.gov自动提取的,尚未经过详尽验证,但在抽查中似乎没问题。

贡献者

  • 这些文件由Dan Feidt (@hongpong)收集和组织。

许可证

  • Creative Commons Zero - Public Domain。详见License.txt。
搜集汇总
数据集介绍
main_image_url
构建方式
在移民拘留设施数据研究领域,该数据集通过自动化采集与多源融合技术构建而成。其核心方法依托Python脚本从ICE.gov官方平台抓取原始设施数据,并引入维基百科、维基数据和OpenStreetMap的开放知识库进行实体增强。数据提取环节采用大型语言模型自动解析网页内容,虽未经过全面人工校验,但经抽样验证具备可靠性。
特点
该数据集呈现多维度的移民拘留设施空间与属性特征,包含经地理编码处理的设施坐标信息及跨平台关联的语义数据。特别值得注意的是调试模式下的输出版本保留了完整处理痕迹,为分析数据融合过程中的歧义与误差提供了透明化研究样本。数据集采用标准化CSV与JSON格式存储,确保机器可读性与跨平台兼容性。
使用方法
研究人员可借助该数据集开展移民政策影响评估与空间分布分析,原始JSON文件适用于自然语言处理模型的训练与验证,而增强后的CSV表格可直接导入地理信息系统进行可视化建模。使用前建议对照源码仓库的调试数据校验采集逻辑,结合OpenStreetMap的时空索引功能可实现设施运营状态的动态追踪。
背景与挑战
背景概述
ICE拘留设施数据集由开放安全地图项目于2025年创建,主要研究人员Dan Feidt通过系统化数据采集技术整合多源信息。该数据集聚焦于美国移民与海关执法局拘留设施的空间分布与属性特征,旨在为移民政策研究、人权监督和地理空间分析提供数据支撑。其核心研究问题在于揭示拘留设施的运营状态与地理关联性,对公共政策评估和司法透明度提升具有显著影响力。
当前挑战
该数据集致力于解决移民拘留设施动态监测与多源数据融合的复杂性挑战,具体包括设施信息的实时性验证、异构数据源的结构化对齐,以及地理坐标的精确匹配。在构建过程中面临多重技术障碍:自动化采集需克服政府网站反爬机制,维基数据与开放街景的语义关联存在准确度偏差,且人工智能提取的原始数据需经过大量人工校验以确保可靠性。
常用场景
经典使用场景
在移民政策与拘留设施研究领域,该数据集为分析美国移民和海关执法局(ICE)拘留中心的分布与运营特征提供了关键数据支撑。研究者借助这一数据集,能够系统考察各拘留设施的地理位置、容量规模及关联的行政区域,进而揭示拘留网络的整体架构与区域差异。此类分析常用于评估设施分布的社会公平性及对移民社区的影响。
解决学术问题
该数据集有效解决了移民研究中对权威、结构化拘留设施数据缺乏的学术困境。通过融合多源数据(如ICE官方信息、Wikidata知识库和OpenStreetMap地理数据),它支持学者开展对拘留政策效果、人权状况及设施运营透明度的量化研究,促进了公共政策、法学和社会学领域对移民拘留体系的深入理解与批判性分析。
衍生相关工作
该数据集衍生了一系列关注移民拘留体系的学术与技术工作,例如开发更高效的数据抓取与丰富工具以扩展数据覆盖面和实时性。相关研究多聚焦于利用计算社会科学方法分析拘留政策的影响,或结合机器学习技术预测设施使用趋势;此外,它也促进了开放数据运动在政府透明度与人权监督领域的应用创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作