five

National Security and Defence Documents Dataset (NSDDD) v3.5

收藏
github2026-04-14 更新2026-04-15 收录
下载链接:
https://github.com/andrewneal78/NSDDD_v3.5_installer
下载链接
链接失效反馈
官方服务:
资源简介:
NSDDD v3.5数据集包含来自118个国家的671份国家安全战略文件,时间跨度为1987年至2025年,并包含787,844个预计算的文本段嵌入。

The NSDDD v3.5 dataset contains 671 national security strategy documents from 118 countries, spanning the period from 1987 to 2025, and includes 787,844 pre-computed text segment embeddings.
创建时间:
2026-03-30
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:National Security and Defence Documents Dataset (NSDDD) v3.5
  • 数据集来源:University of Edinburgh, Edinburgh DataShare
  • 数据访问地址:https://datashare.ed.ac.uk/handle/10283/9182
  • 数据集规模:包含671份国家安全与国防文件
  • 覆盖国家:118个国家
  • 时间跨度:1987年至2025年
  • 文本片段:包含787,844个预计算的句子级文本片段嵌入
  • 嵌入模型all-mpnet-base-v2 (768维)
  • 语言:英语及80多个国家的翻译文本

数据集内容

  • 文档类型:国家安全战略、国防白皮书、国防与安全评估报告、条约/结盟文件
  • 内容主题:国家安全与国防战略文件

安装与使用

  • 系统要求
    • Python 3.10+(推荐3.11+)
    • 磁盘空间:15 GB(最低),20 GB(推荐)
    • 内存:8 GB(最低),16 GB(推荐)
  • 安装方式:通过提供的安装脚本进行本地安装,安装后支持完全离线使用
  • 搜索界面:基于浏览器的本地搜索界面,访问地址为 http://localhost:8867

搜索功能

  • 搜索模式
    • 语义搜索:基于概念的AI匹配
    • 关键词搜索:支持正则表达式、布尔运算符和模糊匹配
  • 筛选条件
    • 国家(118个国家可选)
    • 联合国区域和子区域
    • 国际组织(北约、欧盟、东盟、非盟、G7、G20、金砖国家、英联邦等)
    • 收入组别(世界银行分类)
    • 民主状态(自由之家分类)
    • 文档类型
    • 年份范围(1987-2025)
    • 仅限各国最新文件
  • 输出功能
    • 结果按语义聚类分组并自动生成标签
    • 支持导出为CSV格式
    • 可视化:按年份结果、主要国家、聚类概览

高级使用

  • 可通过Jupyter Notebook直接访问 document_metadata_search.ipynb 进行脚本编写、自定义分析或程序化访问搜索结果
  • 可通过 VERIFY.ipynb 验证安装或诊断问题

引用信息

  • 建议引用格式

    Neal, A. W., & Gardner, R. B. (2026). National Security and Defence Documents Dataset (1987–2025) v3.5. University of Edinburgh. Edinburgh DataShare. https://datashare.ed.ac.uk/handle/10283/9182

  • BibTeX格式: bibtex @dataset{neal_gardner_2026_nsddd_v3.5, author = {Neal, Andrew W. and Gardner, Roy B.}, title = {National Security and Defence Documents Dataset (1987--2025) v3.5}, year = {2026}, publisher = {Edinburgh DataShare}, institution = {University of Edinburgh}, url = {https://datashare.ed.ac.uk/handle/10283/9182} }

许可信息

  • 安装程序代码:MIT License
  • NSDDD v3.5数据集:CC-BY 4.0
  • 数据集中的文件:属于公共领域的官方政府出版物
搜集汇总
数据集介绍
main_image_url
构建方式
在国家安全与防务研究领域,系统化的文档收集与处理是支撑深度分析的基础。NSDDD v3.5数据集通过汇集1987年至2025年间118个国家的671份官方战略文件构建而成,涵盖国家安全战略、防务白皮书、战略评估及条约文件等多种类型。其构建过程采用了自动化与人工校验相结合的方式,对原始文档进行英语翻译与句子级分割,生成共计787,844个文本片段,并基于all-mpnet-base-v2模型预计算了高维语义嵌入向量,从而为后续的语义检索与分析提供了结构化基础。
特点
该数据集的核心特点在于其广泛的时空覆盖与多维度的元数据标注。文档来源横跨全球主要区域与国家,时间跨度近四十年,能够反映国际安全格局的演变轨迹。数据集不仅提供了原始文本,还集成了国家、地区、国际组织、收入群体、民主状态等多重分类标签,支持用户按概念、年份、地域等多重维度进行交叉筛选。此外,预计算的语义嵌入向量使得离线环境下的智能概念检索成为可能,兼顾了数据使用的效率与隐私安全。
使用方法
用户可通过提供的安装程序在本地部署完整的检索环境,无需持续联网即可运行。安装完成后,启动基于浏览器的交互界面,即可使用语义搜索与关键词搜索两种模式,结合丰富的过滤条件对文档进行探索。系统支持将搜索结果按语义聚类并自动生成标签,同时提供可视化图表与CSV导出功能,便于进一步量化分析。对于高级用户,亦可直接访问Jupyter Notebook进行编程式操作,实现自定义分析流程或与现有研究工具集成。
背景与挑战
背景概述
在国家安全与战略研究领域,系统性地分析各国官方安全政策文件对于理解全球安全动态至关重要。由爱丁堡大学研究人员Andrew W. Neal和Roy B. Gardner于2026年发布的《国家安全与国防文件数据集(NSDDD)v3.5》,汇集了1987年至2025年间118个国家的671份国家安全战略、国防白皮书等核心文献,共计包含超过78万条文本片段及其向量嵌入。该数据集旨在为国际关系、比较政治学及安全研究提供大规模、结构化的多国政策文本资源,支持基于概念的语义检索与跨时空比较分析,显著提升了该领域研究的量化深度与实证基础。
当前挑战
该数据集致力于解决国家安全文本分析中面临的多重挑战:在领域层面,如何从非结构化、多语言的政策文件中精准提取并比较各国安全战略的核心概念与演变轨迹,构成了语义理解与跨文档关联的复杂性;在构建过程中,研究团队需克服大规模官方文档的收集、标准化处理与多语言翻译的困难,同时确保时间跨度近四十年的数据连贯性与标注一致性,并需设计高效的嵌入模型以支撑离线环境下的细粒度语义检索。
常用场景
经典使用场景
在国家安全与战略研究领域,NSDDD v3.5数据集为学者提供了跨越1987至2025年间118个国家的671份国家安全战略文件,其经典使用场景在于支持基于语义的跨文档内容检索与分析。研究者能够借助预计算的文本嵌入向量,通过概念匹配而非单纯关键词匹配,深入探索不同国家在特定历史时期的安全政策演变、战略重点转移以及区域安全态势的异同,从而揭示全球安全治理的宏观图景与微观动态。
解决学术问题
该数据集有效解决了国际关系与安全研究中长期存在的文档获取分散、语言壁垒及跨时期比较困难等学术问题。通过提供标准化、多语言且时间跨度近四十年的文本集合,它使得定量与定性相结合的政策文本分析成为可能,助力研究者系统检验诸如民主化程度、收入水平或国际组织成员身份如何影响一国安全战略的制定,推动了比较安全研究范式的实证深化与理论创新。
衍生相关工作
围绕NSDDD数据集,已衍生出一系列经典的学术与工具性工作。例如,基于其文档元数据与嵌入向量的研究,催生了关于国家安全话语演变的计算文本分析模型;同时,配套开发的本地化搜索工具与程序化访问接口,为后续研究者构建自定义分析流程或集成到更大型的研究框架中提供了便利,进一步拓展了数据在计算社会科学与数字人文领域的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作