five

uap-release-01

收藏
github2026-05-09 更新2026-05-10 收录
下载链接:
https://github.com/ckpxgfnksd-max/uap-release-01
下载链接
链接失效反馈
官方服务:
资源简介:
2026年5月war.gov发布的PURSUE UFO解密文件,包含132个文件(118个PDF,8个PNG,6个JPG),总计约2.4GB或约4,157页PDF。这些文件来自美国政府的公开领域文档,作为uap-release-analyzer技能的示例数据集。

Declassified PURSUE UFO documents released by war.gov in May 2026 consist of 132 total files (118 PDF documents, 8 PNG images, 6 JPG images), with an overall size of approximately 2.4 GB and a total of around 4,157 PDF pages. These materials are sourced from U.S. government public domain documents and serve as an example dataset for the uap-release-analyzer skill.
创建时间:
2026-05-08
原始信息汇总

数据集概述

数据集名称:uap-release-01
来源:美国 war.gov 网站发布的“PURSUE”UFO 解密文件集
抓取时间:2026-05-08
数据总量:约 2.4 GB,共 132 份文件(118 个 PDF、8 个 PNG、6 个 JPG),PDF 总页数约 4,157 页


文件构成

机构 文件数量 说明
FBI 57 包含案件文件部分、FD-302 访谈报告、传感器照片、2024 年合成草图
DOW(战争部,前身为 DoD) 44 2020–2024 年 CENTCOM 行动区的任务报告和范围欺骗汇报
NASA 13 阿波罗、天空实验室、双子星任务的转录记录和乘员汇报
NARA 13 历史档案(记录组 RG 18, 38, 59, 255, 331, 341, 342),多为扫描件
DOS(国务院) 5 大使馆电报(涉及巴布亚新几内亚 1985 年、哈萨克斯坦 1994 年等)
总计 132

PDF 文件详情

  • 54 个 PDF 包含文本层(可直接提取文字)
  • 64 个 PDF 为纯扫描件(无文本层,需 OCR)
  • 14 个图像文件(PNG/JPG)为 FBI 传感器照片和 2024 年合成草图,需视觉分析

数据来源与处理

  • 原始网站:https://www.war.gov/UFO/
  • 数据完整性:未进行任何重新编辑或转换,完全按 war.gov 发布状态保留
  • 未包含视频:当前版本仅含 PDF 和图像文件;未来如有视频,将在 README 中提供原始链接,而非镜像存储

使用方式

克隆数据集(需 Git LFS): bash git lfs install git clone https://github.com/ckpxgfnksd-max/uap-release-01.git ~/Documents/UFO/release_01

运行分析工具(关联项目 uap-release-analyzer): bash git clone https://github.com/ckpxgfnksd-max/uap-release-analyzer.git python uap-release-analyzer/scripts/run_all.py ~/Documents/UFO/release_01 open ~/Documents/UFO/release_01/REPORT.md

选择性下载(跳过全部文件,按需拉取): bash GIT_LFS_SKIP_SMUDGE=1 git clone https://github.com/ckpxgfnksd-max/uap-release-01.git cd uap-release-01 git lfs pull --include "dow-uap-d27*" # 仅下载单个文件 git lfs pull --include "dow-*" # 下载整个类别


版权与许可

  • 美国联邦政府作品不适用 17 U.S.C. § 105 版权保护,属于美国公共领域
  • 在美国境外再分发时,需自行检查当地版权法规
  • 该仓库作者(Chase Wang 及贡献者)不附加额外版权声明

存储说明

  • 使用 Git LFS 托管全部文件(约 2.4 GB / 132 个文件)
  • 9 个文件超过 GitHub 单文件 100 MB 限制(最大文件 353 MB),因此必须使用 LFS
  • 对于不含文本层的扫描件(如部分 NARA/FBI 文件),可通过选择性下载跳过,分析工具会将其标记为“需 OCR”而非直接分析
搜集汇总
数据集介绍
main_image_url
构建方式
uap-release-01数据集源自美国战争部(war.gov)于2026年5月发布的“PURSUE”不明飞行物解密档案,共收录132份政府公开文件,总容量约2.4 GB,涵盖4157页PDF以及14幅图像文件。数据按机构分类收集,包括联邦调查局(FBI)的57份案件卷宗与传感器照片、国防部(DOW,原DoD)的44份任务报告与2020至2024年中央司令部战区的异常现象简报、美国国家航空航天局(NASA)的13份阿波罗与天空实验室等航天任务记录、国家档案与记录管理局(NARA)的13份历史扫描存档,以及国务院(DOS)的5份驻外使馆电报。数据集以镜像方式托管于GitHub,确保了原始公共领域文件的完整性与可复现性,未进行任何重新编辑或格式转换。
特点
该数据集具有显著的多元性与非结构化特征。在118份PDF文件中,仅54份具备可提取的文本层,其余64份为纯扫描图像,需依赖OCR技术或人工分析方能获取内容。此外包含的14幅PNG与JPG图像多为FBI传感器帧照片与2024年合成素描,要求视觉分析而非传统文字处理。数据来源覆盖六大联邦机构,时间跨度从历史档案到近年记录,使得语料兼具历史深度与当代背景。为应对大文件存储挑战,数据集采用Git LFS管理,其中9份文件超过GitHub单文件100 MB限制,最大者达353 MB。整体上,数据集的异构性与庞大体量使其成为评估多模态分析与信息提取工具的理想基准。
使用方法
使用该数据集首先需安装Git LFS并克隆仓库,执行`git lfs install`与`git clone`命令即可获取完整语料。随后可运行配套的分析工具`uap-release-analyzer`,通过`run_all.py`脚本对数据集进行自动化处理,直接生成包含评估结果的REPORT.md报告。为节省本地存储,用户可利用`GIT_LFS_SKIP_SMUDGE=1`环境变量仅克隆元数据,再按需通过`git lfs pull`选择性下载特定机构或索引的文件,例如`dow-uap-d27*`或`dow-*`。由于视频文件较大,此版本未包含视频内容,未来扩展时将通过README链接至原始来源。用户应遵守美国公共领域版权法律,在境外分发时需注意当地法规差异。
背景与挑战
背景概述
uap-release-01数据集诞生于2026年5月,由研究人员Chase Wang及其团队从美国war.gov网站系统搜集并整理而成。该数据集镜像了美国政府公开的132份非机密文件,涵盖FBI、国防部(DOW)、NASA、国家档案馆(NARA)及国务院(DOS)等多个机构的记录,总计约2.4 GB数据,包含118份PDF文档和14张图片文件。其核心研究问题聚焦于未知异常现象(UAP)相关档案的数字化整合与分析,为跨机构、跨年代的UAP事件研究提供了统一且可复现的数据基础。作为uap-release-analyzer工具的标准示例数据集,它在数据科学、信息提取及政府透明度研究领域具有重要影响力,推动了公众与学界对UAP议题的实证探索。
当前挑战
该数据集所面临的挑战主要体现在两个层面。在领域问题层面,核心挑战在于UAP档案的异构性与非结构化特征:大量文件为扫描件(64份PDF无文本层),且包含图片、手写报告及历史文档,使得自动化信息提取面临OCR准确率低、视觉内容解析困难等问题,亟需融合计算机视觉与自然语言处理技术进行多模态分析。在数据集构建过程中,挑战包括:数据源war.gov的部分记录仅支持在线查看而无法直接下载(如DOW-UAP-PR系列),需通过URL钩取方式捕获,增加了采集复杂度;同时,Git LFS管理的文件单个最大达353 MB,超出GitHub单文件限制,对版本控制与存储策略提出更高要求;此外,跨机构的文件格式与元数据标准不统一,需人工协调以确保数据集的完整性与可溯源性。
常用场景
经典使用场景
该数据集的核心用途在于为不明空中现象(UAP)的政府解密文件分析提供标准化的基准测试语料。研究者可借助配套的`uap-release-analyzer`工具链,对来自FBI、国防部战争部(DOW)、NASA及国务院等机构的132份原始文档进行系统性处理,包括对54份含文本层的PDF执行自然语言处理(NLP)任务,以及对64份纯扫描PDF和14份图像文件实施光学字符识别(OCR)与计算机视觉分析。此数据集尤其适用于评估跨模态信息抽取管线的性能,例如从FD-302访谈报告、阿波罗任务转录本及传感器照片中联合提取时空线索与事件实体,从而构建可复现的UAP事件分析评测基准。
实际应用
在实际应用层面,该数据集为政府透明度与档案数字化的工程实践提供了直接抓手。安全分析师可将其用于构建自动化威胁情报筛选系统,快速提取FBI案例文件(如62-HQ-83894系列)中的关键人物、地点与时间元数据;新闻调查机构则能借助其构建UAP事件的时空可视化面板,例如通过解析1985年巴布亚新几内亚的国务院海底电缆与2020年CENTCOM战区报告,揭示同一现象在不同行政层级中的表述演变。此外,该数据集中的14张传感器图像与2024年合成素描还为警用视觉分析系统提供了罕见的异形物检测训练样本。
衍生相关工作
该数据集最显著的衍生工作是由其镜像仓库直接支撑的`uap-release-analyzer`评测框架。该工具定义了标准化的评分流程,允许研究人员在同一输入语料上比较不同NLP/OCR管线输出与人工标注的吻合度,产生REPORT.md格式的对照成绩单。此外,数据集中未含文本层的64份扫描PDF已催生针对历史档案的扫描增强与版面分析工作,例如利用深度卷积神经网络从NARA记录组(RG 18, 38等)的模糊扫描件中重构图模结构。部分研究团队还基于FBI传感器照片的PNG/JPG格式,开展了极端光照条件下的异常目标检测迁移学习实验,其预训练模型权重已在学术社区共享。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作