CIA World Factbooks Archive 1990-2025
收藏CIA World Factbooks Archive 1990-2025 数据集概述
数据集简介
这是一个完整、结构化的美国中央情报局(CIA)《世界概况》档案,时间跨度36年(1990-2025年),涵盖281个实体,包含1,071,603个数据字段,存储于标准化的SQLite数据库中。CIA《世界概况》已于2026年2月4日停刊,此档案保存了自1990年以来发布的每个版本,并创建了一个结构化、可查询的数据集。
数据完整性
未添加或更改任何《世界概况》内容。解析过程将CIA的原始文本结构化为可查询的字段——移除格式伪影、章节标题并去重噪声行——但实际数据值与CIA发布的完全一致。对源数据的唯一添加是参考查找表(FIPS到ISO代码映射、实体分类、COCOM区域分配),这些表与原始数据并存,而非嵌入其中。
数据库统计
| 指标 | 数值 |
|---|---|
| 覆盖年份 | 1990-2025(36个版本) |
| 实体数量 | 281个(192个主权国家、65个领土、6个争议地区等) |
| 国家-年份记录 | 9,536条 |
| 类别记录 | 83,682条 |
| 数据字段 | 1,071,603个 |
| 内容大小 | ~636 MB(包含FieldValues + FTS) |
| 字段名称变体 | 1,090个映射至414个规范名称 |
| 结构化子值 | 1,610,973个从原始文本解析而来(2,386个子字段) |
数据来源
| 年份 | 来源 | 方法 |
|---|---|---|
| 1990-1995, 1997-1999 | Project Gutenberg | 纯文本解析(十年间4种格式变体) |
| 1996 | CIA原始文件 + Gutenberg | 来自Wayback Machine的CIA自有文本文件(替换了7个国家的截断Gutenberg数据) |
| 2000 | Wayback Machine | HTML压缩包下载 + 经典格式解析器 |
| 2001 | Project Gutenberg | 文本回退(HTML压缩包已损坏) |
| 2002-2020 | Wayback Machine | 来自cia.gov的HTML压缩包存档,4代解析器 |
| 2021-2025 | factbook/cache.factbook.json | 具有年终提交快照的Git历史记录 |
逐年细分
(详细数据请参阅提供的README文件中的“Year-by-Year Breakdown”表格)
存储库结构
data/:包含规范实体、国家-年份记录、类别记录、字段名称标准化规则等SQL文件,以及按年份分割的字段数据压缩文件。schema/:包含所有5个表的DDL以及FieldValues表的DDL。etl/:包含用于构建档案的Python脚本,处理HTML解析、文本解析、JSON加载、字段名称标准化、实体分类、数据完整性验证、结构化值解析以及StarDict字典生成。scripts/:包含命令行搜索工具和数据验证脚本。queries/:包含用于Power BI/分析的示例查询和命令行搜索工具。docs/:包含数据库模式、ETL流程、字段演变和方法论的完整文档。
ETL流程与Python脚本
获取数据有两种方式:
- 导入预构建的SQL转储文件(位于
data/目录)——无需Python。 - 从头重新运行ETL流程——使用
etl/目录中的Python脚本直接从原始来源下载原始《世界概况》数据,解析每种格式变体,并将结构化结果加载到SQL Server。
如何恢复数据库
前提条件
- SQL Server 2017+(或Azure SQL)
- ODBC Driver 18 for SQL Server
- Python 3.8+ 及
pyodbc
步骤
- 创建数据库。
- 运行模式脚本。
- 按顺序导入数据:
master_countries.sql、countries.sql、categories.sql、field_name_mappings.sql。 - 解压并导入每年的字段数据。
- 验证数据。
结构化字段值数据库
CountryFields.Content中的原始文本已使用55个专用解析器分解为1,610,973个类型化子值,涵盖2,386个不同的子字段。每行包含一个SourceFragment,显示生成该值的精确文本片段。内容中的子字段边界使用管道符(|)作为分隔符以实现明确解析。
下载地址: https://github.com/MilkMp/CIA-World-Factbooks-Archive-1990-2025/releases/tag/v3.2
实时仪表板: https://worldfactbookarchive.org/analysis/structured-data
StarDict字典
适用于KOReader、GoldenDict及其他StarDict兼容应用的离线字典。按名称、ISO代码或FIPS代码查找任何国家,获取完整的《世界概况》条目。
每年两个版本:
- 通用版——按类别(地理、人口、经济等)分组的完整字段文本。
- 结构化版——来自FieldValues表的带单位的解析数字子值。
总计72部字典:36年(1990-2025)x 2个版本,约97 MB压缩。
替代方案:SQLite(无需SQL Server)
预构建的SQLite数据库(factbook.db,约636 MB)可作为发布版本下载,适用于不需要SQL Server的用户。
下载地址: https://github.com/MilkMp/CIA-World-Factbooks-Archive-1990-2025/releases/latest
SQLite数据库包含相同的6个表(包括FieldValues)、相同的索引和相同的1,071,603个字段,外加用于快速关键字和布尔搜索的FTS5全文搜索索引。
实时Web应用程序
该档案通过FastAPI + Jinja2 Web应用程序提供服务,访问地址为:https://worldfactbookarchive.org/
主要功能:
- 支持美国国会图书馆布尔语法(AND、OR、NOT、"短语"、截断)的全文搜索。
- 图书馆——整个档案集合的卡片式概览。
- 按年份(1990-2025)和国家(281个实体)浏览档案。
- 国家概况,包含类别下钻、字段时间序列和数据导出(CSV、Excel、PDF)。
- 文本差异对比——任何国家的并排年份比较,高亮显示更改。
- 国家字典,包含ISO代码、实体类型等信息。



