five

CIA World Factbooks Archive 1990-2025

收藏
github2026-02-23 更新2026-02-24 收录
下载链接:
https://github.com/MilkMp/CIA-World-Factbooks-Archive-1990-2025
下载链接
链接失效反馈
官方服务:
资源简介:
一个完整的、结构化的CIA世界概况档案,涵盖36年(1990-2025年),覆盖281个实体,包含1,061,522个数据字段,存储在规范化的SQLite数据库中。

A complete, structured archive of the CIA World Factbook, spanning 36 years (1990–2025), covering 281 entities, containing 1,061,522 data fields, and stored in a normalized SQLite database.
创建时间:
2026-02-17
原始信息汇总

CIA World Factbooks Archive 1990-2025 数据集概述

数据集简介

这是一个完整、结构化的美国中央情报局(CIA)《世界概况》档案,时间跨度36年(1990-2025年),涵盖281个实体,包含1,071,603个数据字段,存储于标准化的SQLite数据库中。CIA《世界概况》已于2026年2月4日停刊,此档案保存了自1990年以来发布的每个版本,并创建了一个结构化、可查询的数据集。

数据完整性

未添加或更改任何《世界概况》内容。解析过程将CIA的原始文本结构化为可查询的字段——移除格式伪影、章节标题并去重噪声行——但实际数据值与CIA发布的完全一致。对源数据的唯一添加是参考查找表(FIPS到ISO代码映射、实体分类、COCOM区域分配),这些表与原始数据并存,而非嵌入其中。

数据库统计

指标 数值
覆盖年份 1990-2025(36个版本)
实体数量 281个(192个主权国家、65个领土、6个争议地区等)
国家-年份记录 9,536条
类别记录 83,682条
数据字段 1,071,603个
内容大小 ~636 MB(包含FieldValues + FTS)
字段名称变体 1,090个映射至414个规范名称
结构化子值 1,610,973个从原始文本解析而来(2,386个子字段)

数据来源

年份 来源 方法
1990-1995, 1997-1999 Project Gutenberg 纯文本解析(十年间4种格式变体)
1996 CIA原始文件 + Gutenberg 来自Wayback Machine的CIA自有文本文件(替换了7个国家的截断Gutenberg数据)
2000 Wayback Machine HTML压缩包下载 + 经典格式解析器
2001 Project Gutenberg 文本回退(HTML压缩包已损坏)
2002-2020 Wayback Machine 来自cia.gov的HTML压缩包存档,4代解析器
2021-2025 factbook/cache.factbook.json 具有年终提交快照的Git历史记录

逐年细分

(详细数据请参阅提供的README文件中的“Year-by-Year Breakdown”表格)

存储库结构

  • data/:包含规范实体、国家-年份记录、类别记录、字段名称标准化规则等SQL文件,以及按年份分割的字段数据压缩文件。
  • schema/:包含所有5个表的DDL以及FieldValues表的DDL。
  • etl/:包含用于构建档案的Python脚本,处理HTML解析、文本解析、JSON加载、字段名称标准化、实体分类、数据完整性验证、结构化值解析以及StarDict字典生成。
  • scripts/:包含命令行搜索工具和数据验证脚本。
  • queries/:包含用于Power BI/分析的示例查询和命令行搜索工具。
  • docs/:包含数据库模式、ETL流程、字段演变和方法论的完整文档。

ETL流程与Python脚本

获取数据有两种方式:

  1. 导入预构建的SQL转储文件(位于data/目录)——无需Python。
  2. 从头重新运行ETL流程——使用etl/目录中的Python脚本直接从原始来源下载原始《世界概况》数据,解析每种格式变体,并将结构化结果加载到SQL Server。

如何恢复数据库

前提条件

  • SQL Server 2017+(或Azure SQL)
  • ODBC Driver 18 for SQL Server
  • Python 3.8+ 及 pyodbc

步骤

  1. 创建数据库。
  2. 运行模式脚本。
  3. 按顺序导入数据:master_countries.sqlcountries.sqlcategories.sqlfield_name_mappings.sql
  4. 解压并导入每年的字段数据。
  5. 验证数据。

结构化字段值数据库

CountryFields.Content中的原始文本已使用55个专用解析器分解为1,610,973个类型化子值,涵盖2,386个不同的子字段。每行包含一个SourceFragment,显示生成该值的精确文本片段。内容中的子字段边界使用管道符(|)作为分隔符以实现明确解析。

下载地址: https://github.com/MilkMp/CIA-World-Factbooks-Archive-1990-2025/releases/tag/v3.2

实时仪表板: https://worldfactbookarchive.org/analysis/structured-data

StarDict字典

适用于KOReader、GoldenDict及其他StarDict兼容应用的离线字典。按名称、ISO代码或FIPS代码查找任何国家,获取完整的《世界概况》条目。

每年两个版本:

  • 通用版——按类别(地理、人口、经济等)分组的完整字段文本。
  • 结构化版——来自FieldValues表的带单位的解析数字子值。

总计72部字典:36年(1990-2025)x 2个版本,约97 MB压缩。

替代方案:SQLite(无需SQL Server)

预构建的SQLite数据库(factbook.db,约636 MB)可作为发布版本下载,适用于不需要SQL Server的用户。

下载地址: https://github.com/MilkMp/CIA-World-Factbooks-Archive-1990-2025/releases/latest

SQLite数据库包含相同的6个表(包括FieldValues)、相同的索引和相同的1,071,603个字段,外加用于快速关键字和布尔搜索的FTS5全文搜索索引。

实时Web应用程序

该档案通过FastAPI + Jinja2 Web应用程序提供服务,访问地址为:https://worldfactbookarchive.org/

主要功能:

  • 支持美国国会图书馆布尔语法(AND、OR、NOT、"短语"、截断)的全文搜索。
  • 图书馆——整个档案集合的卡片式概览。
  • 按年份(1990-2025)和国家(281个实体)浏览档案
  • 国家概况,包含类别下钻、字段时间序列和数据导出(CSV、Excel、PDF)。
  • 文本差异对比——任何国家的并排年份比较,高亮显示更改。
  • 国家字典,包含ISO代码、实体类型等信息。
搜集汇总
数据集介绍
构建方式
在情报与地理政治学领域,长期连续的数据档案对于追踪全球动态至关重要。CIA World Factbooks Archive 1990-2025 数据集的构建过程体现了对历史数据保存与结构化的严谨追求。该数据集通过一个复杂的ETL管道,从多个原始来源系统性地收集了1990年至2025年间共36个年度的《世界概况》版本。数据来源包括古登堡计划的纯文本文件、互联网档案馆的HTML压缩包以及官方的JSON缓存。针对不同年代至少10种格式变体,开发了专门的解析器,例如处理1990年代四种文本格式变体、2000年至2020年间五代HTML布局,以及2021年后的JSON结构。整个流程确保了原始数据内容不被篡改,仅通过移除格式伪影、划分章节标题和去重噪声行等方式进行结构化处理,最终将超过107万个数据字段整合到一个规范化的SQLite数据库中。
特点
该数据集的核心特点在于其时间跨度的完整性、实体覆盖的广泛性以及数据结构的深度解析。它完整收录了跨越36个年度的《世界概况》,覆盖了281个地理实体,包括主权国家、领土和争议地区,形成了超过百万量级的数据字段。尤为突出的是,数据集通过55个专用解析器,将原始的文本内容分解为超过161万个具有类型的子值,涉及2386个子字段,例如将面积拆分为陆地与水域,或将人口统计数据按性别与年龄组解析。这种深度结构化使得原本隐藏在文本段落中的数值信息变得可直接查询与分析。此外,数据集还通过字段名称映射规则,将1090个原始字段变体统一为414个规范名称,有效解决了因机构内部命名漂移带来的时间序列连续性问题。
使用方法
为满足不同研究场景的需求,该数据集提供了多元化的使用途径。研究者可直接下载预构建的SQLite数据库文件进行本地查询,利用SQL语句进行复杂的跨年度、跨国家比较分析,例如计算各国陆地与水域面积比率或追踪人均GDP变化趋势。数据集配套的交互式网络应用支持全文检索、按年份与国家浏览、数据导出以及年度差异对比等功能,极大便利了探索性分析。对于需要深度集成的场景,用户可遵循提供的恢复步骤,将数据导入SQL Server环境,或利用附带的Python脚本重新运行完整的ETL流程。此外,数据集还生成了适用于离线词典工具的StarDict格式文件,便于在移动设备上进行快速的国家信息检索。
背景与挑战
背景概述
CIA World Factbooks Archive 1990-2025 是由独立研究机构构建的权威性地理政治数据集,旨在系统性地保存并结构化美国中央情报局(CIA)于1990年至2025年间发布的《世界概况》年度报告。该数据集由开源社区主导,于2026年《世界概况》正式停刊后启动,覆盖全球281个政治实体,包含超过107万条数据字段,形成跨越36年的连续时间序列。其核心研究问题聚焦于如何将非结构化的政府报告转化为可查询的标准化数据库,从而支持国际关系、比较政治学、发展经济学等领域的纵向研究。该数据集通过提供历史政治实体演变、社会经济指标变迁的完整记录,为全球治理研究和政策分析奠定了不可或缺的数据基石。
当前挑战
该数据集面临的核心领域挑战在于解决多源异构政府文档的长期标准化问题,即如何从不断演变的非结构化文本中提取可比较的跨国与跨时间指标。构建过程中的技术挑战尤为显著:首先,原始数据历经至少10次格式变革,包括1990-1999年间的4种纯文本变体、2000-2020年的5代HTML布局重构以及2021年后的JSON结构转型,每种格式都需要独立的解析器。其次,字段命名存在持续性漂移现象,1090种原始字段变体需通过七层规则映射至414个规范名称以保持时间序列一致性。此外,数据完整性维护面临特殊难题,如2001年HTML源文件损坏需回退至文本版本、1996年7国数据截断需从原始压缩文件修复,以及政治实体变迁(如塞尔维亚和黑山解体)带来的实体映射复杂性。
常用场景
经典使用场景
在比较政治学与国际关系研究中,CIA World Factbooks Archive 1990-2025 数据集常被用于追踪全球各国政治经济指标的长期演变。学者借助其跨越36年的结构化数据,能够系统分析主权国家在人口结构、经济增长、军事开支及能源消耗等关键领域的动态变化。例如,通过对比不同政体在相同时间窗口内的人均GDP增长率,可以揭示制度差异对经济发展轨迹的潜在影响,为宏观政策评估提供实证基础。
衍生相关工作
基于该档案衍生的经典研究涵盖多个学科前沿。在计算社会科学领域,学者利用其构建了全球政权稳定性预测模型,通过机器学习算法识别经济震荡与政治危机的早期信号;历史地理学研究则通过解析领土面积、海岸线长度等空间属性的变迁,重构后冷战时代地缘格局的演化图谱。此外,档案的星典词典格式衍生出72部离线知识库,为数字人文领域的文本挖掘与语义网络分析提供了高质量语料。
数据集最近研究
最新研究方向
在数字人文与地缘政治分析领域,CIA World Factbooks Archive 1990-2025数据集因其跨越三十六年的连续记录而成为研究全球动态演变的珍贵资源。该数据集的最新研究方向聚焦于利用结构化解析技术,将超过一百万个原始文本字段转化为可计算的数值型子值,从而支持对各国社会经济指标的纵向量化分析。前沿探索涉及运用自然语言处理与机器学习算法,自动识别并追踪地缘政治事件、环境变迁及经济发展趋势在数据集中的隐性关联,例如通过解析军事开支、人口结构或资源依赖等子字段,构建预测模型以评估区域稳定性。这一进展不仅推动了历史数据的跨时代可比性研究,也为政策制定者与学术机构提供了基于证据的决策支持,在全球化背景下具有深远的学术与现实意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作