five

coldCounter

收藏
github2026-03-17 更新2026-03-19 收录
下载链接:
https://github.com/doriangiterdone/coldCounter
下载链接
链接失效反馈
官方服务:
资源简介:
coldCounter是一个开源数据基础设施项目,旨在聚合、规范化和记录美国的移民拘留数据。该项目提供了一个可移植的SQLite数据市场,使研究人员、记者、政策分析师和民权组织能够以透明和可重复的方式探索移民拘留记录。

coldCounter is an open-source data infrastructure project dedicated to aggregating, normalizing, and documenting immigration detention data in the United States. This project provides a portable SQLite-based data marketplace, enabling researchers, journalists, policy analysts, and civil rights organizations to explore immigration detention records in a transparent and reproducible manner.
创建时间:
2026-03-08
原始信息汇总

coldCounter 数据集概述

数据集基本信息

  • 数据集名称:coldCounter
  • 创建目的:聚合、规范化并记录美国移民拘留数据,以透明、可复现的方式提供分析。
  • 创建日期:2026年3月4日
  • 创建者:No Concentration Camps in Colorado

数据集内容与结构

coldCounter 是一个开源数据基础设施项目,主要提供一个便携的 SQLite 数据市场,用于探索移民拘留记录。

主要组件

  1. 数据库构建:通过 Python ETL 脚本构建并填充 SQLite 数据库,数据源为 deportationdata.org
  2. 分析报告:基于数据库结构,支持研究人员使用 deportationdata.org 发布的数据集生成统计摘要和设施级别报告。

数据库设计

采用维度建模方法,便于分析查询。主要表格包括:

原始表

  • arrests:来自“驱逐数据项目”的逮捕数据。
  • detainers:来自“驱逐数据项目”的关于 ICE 与执法部门接触的数据。
  • detention_stays:来自“驱逐数据项目”的基于个人的拘留数据报告。
  • detention_stints:来自“驱逐数据项目”的基于遭遇的拘留数据报告。

事实表

  • fact_hold_rooms:包含关于“留置室”使用的汇总数据,并与 ICE 国家拘留标准进行比较。更新后的计数考虑了2025年6月特朗普备忘录将可接受使用时间从12小时延长至72小时的规定。
  • fact_detention_facilities:包含当前可用数据范围内按设施汇总的拘留信息。

维度表

  • dim_ncic_offense_codes:包含从 ICAOS 获取的、在 ICOTS 中使用的已分类 NCIC 犯罪代码。
  • dim_ice_offices:包含从 ICE 网站抓取的 ICE 办公室位置信息。
  • dim_noccc_holdroom_research:包含通过 NOCCC 研究发现的地点及其来源文件。
  • dim_hold_rooms:包含基于 ICE 办公室位置或其他通过 FOIA 获取的研究确定的留置室位置。

数据来源

  • 主要聚合 The Deportation Data Project (https://deportationdata.org/) 发布的移民拘留数据。
  • NCIC 犯罪代码分类来自 https://support.interstatecompact.org/hc/en-us/articles/360046201293-What-NCIC-Offense-Codes-are-used-in-ICOTS。
  • 留置室位置数据的额外来源记录在 dim_noccc_holdroom_research 表中。

ETL 流程

  1. 提取:从 deportationdata.org 下载原始数据集,作为 Python 数据帧存储在系统内存中。
  2. 规范化:通过 build_coldCounter.py 标准化列名、转换不一致的格式,并将犯罪代码映射到规范化的分类表。
  3. 分析:通过 build_coldCounter.py 基于规范化数据计算汇总和派生字段,以填充事实表数据帧。
  4. 加载:通过 build_coldCounter.py 用每个新数据帧替换 coldCounter.db 中的每个表。

可复现性

项目设计允许任何人从源数据集重建数据库。 步骤:

  1. 下载代码库。
  2. 解压到所需的安装目录。
  3. 运行 install_or_refresh_coldCounter.bat 批处理文件。
  4. SQLite 数据库将在本地生成。

目标用户

  • 记者
  • 学术研究人员
  • 政策分析师
  • 民权组织
  • 研究移民执法的数据科学家

许可与声明

  • 项目在开源许可下发布。
  • 用户应在重新分发前核实 deportationdata.org 发布的数据集的许可条款。
  • coldCounter 是一个独立的数据基础设施项目,仅为分析和透明化目的组织 deportationdata.org 发布的数据集,除数据库结构所需的规范化外,不会修改基础记录。
搜集汇总
数据集介绍
main_image_url
构建方式
在移民执法数据研究领域,数据分散与格式不统一长期制约着深入分析。coldCounter数据集通过系统化的ETL流程构建而成,其核心是从deportationdata.org获取原始拘留数据,利用Python脚本进行自动化处理。构建过程涵盖数据摄取、格式标准化、分类映射以及聚合计算等多个阶段,最终生成结构化的SQLite数据库。这一流程确保了数据从原始来源到分析就绪状态的完整可追溯性,为透明且可复现的研究奠定了坚实基础。
使用方法
对于希望利用该数据集的研究者,使用方法清晰而直接。用户可通过运行提供的批处理脚本,在本地自动重建或更新完整的SQLite数据库。数据分析可通过直接操作数据库文件,或借助集成的Beekeeper Studio便携版进行可视化查询来实现。这种设计使得从数据获取、验证到分析的工作流得以一体化完成,特别适合需要快速、透明地开展移民拘留政策影响评估或趋势分析的各类用户。
背景与挑战
背景概述
在移民执法数据研究领域,数据碎片化与标准化缺失长期制约着透明化分析与政策评估。coldCounter数据集由科罗拉多州无集中营组织于2026年3月4日创建,旨在构建一个开源的数据基础设施项目,通过聚合、规范化并记录美国移民拘留数据,应对现有数据在格式、发布渠道及分类体系上的不一致性。该项目以SQLite数据市场为核心,整合来自驱逐数据项目的公开数据集,为研究人员、记者及民权组织提供可复现的分析框架,推动移民执法研究的科学性与透明度,对公共政策分析与社会科学研究具有显著影响力。
当前挑战
coldCounter数据集致力于解决移民执法领域数据整合与标准化分析的挑战,其核心问题在于原始数据源存在格式不一致、发布分散及分类系统差异等障碍,导致跨机构、跨时间维度的比较研究难以开展。在构建过程中,项目面临数据清洗与归一化的复杂性,需将非结构化的拘留记录转化为符合维度建模的数据库结构,同时确保ETL流程的可复现性。此外,数据源依赖外部公开数据集,其更新频率与质量稳定性亦构成持续维护的挑战,要求项目具备动态适配与验证机制。
常用场景
经典使用场景
在移民政策与执法研究领域,coldCounter数据集为分析美国移民拘留数据提供了标准化框架。其经典使用场景体现在学术研究中,学者利用该数据集整合的SQLite数据市场,对拘留记录进行跨时间、跨设施的统计分析,揭示执法模式与趋势。例如,通过查询fact_hold_rooms表,研究者能够评估拘留设施中候审室的使用是否符合国家标准,从而探讨执法实践中的合规性问题。
解决学术问题
该数据集解决了移民研究中的数据碎片化与标准化难题。传统上,移民执法数据因格式不一致、分类系统差异而难以进行系统性分析,coldCounter通过ETL流程归一化数据,构建维度建模结构,使得学者能够可靠地探究拘留时长、人口统计特征及执法偏差等核心议题。其意义在于提升了研究的可重复性与透明度,为政策评估提供了实证基础,推动了数据驱动的人文社科研究范式。
实际应用
在实际应用中,coldCounter服务于新闻调查、政策分析与民权监督。记者借助其便携式数据库,快速生成设施级别的拘留报告,曝光执法中的异常模式;政策制定者则利用聚合数据评估移民法规的实施效果,如特朗普备忘录对候审室使用时限的影响。民权组织可通过数据交叉验证,监督执法机构是否遵守保护弱势群体的规定,从而促进公共问责与社会正义。
数据集最近研究
最新研究方向
在移民拘留数据研究领域,coldCounter数据集作为开源基础设施项目,正推动前沿研究聚焦于政策影响量化与透明化分析。其整合的标准化数据,特别是针对拘留室使用规范的动态追踪,使得学者能够深入评估2025年特朗普备忘录将可接受拘留时间从12小时延长至72小时的政策效应,这直接关联到移民权利与执法标准的公共辩论热点。通过维度建模与可复现的ETL流程,该数据集促进了跨学科研究,支持记者、政策分析者及民权组织进行数据驱动的调查,增强了执法实践的透明性与问责制,对推动移民司法领域的证据型倡导具有实质意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作